تعتبر القدرة على التوليد المركب (Compositional Generalization) واحدة من الخصائص الأساسية التي يجب أن تتوفر في نماذج الذكاء الاصطناعي المولدة للصور والفيديو. ومع ذلك، لا تزال بعض الآليات التي تسهم في تمكين أو عرقلة هذه القدرة غير مفهومة تماماً. في دراسة جديدة تم نشرها، أجرى الباحثون تحليلاً منظماً لكيفية تأثير خيارات التصميم المختلفة على هذه القدرة، سواء بشكل إيجابي أو سلبي.

تتضمن الدراسة تجارب محكومة تسلط الضوء على عاملين رئيسين: الأول هو ما إذا كان الهدف التدريبي يعمل على توزيع منفصل (Discrete Distribution) أو توزيع مستمر (Continuous Distribution)، والثاني يتعلق بمدى توفير المعلومات عن المفاهيم الأساسية أثناء التدريب.

بناءً على هذه الأفكار، أظهرت النتائج أن تخفيف الخسارة المنفصلة لنموذج MaskGIT باستخدام هدف مستمر يعتمد على نموذج JEPA يمكن أن يحسن الأداء المركب في النماذج المنفصلة مثل MaskGIT. يُظهر هذا البحث أهمية التفكير في التصميمات التدريبية لتحقيق نتائج أفضل في مجالات مثل توليد الصور والفيديو.

ما رأيكم في هذه النتائج؟ هل تعتقدون أن أهداف التدريب المستمرة ستنبئ عن جيل جديد من نماذج الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.