في عالم الذكاء الاصطناعي، تُعتبر نماذج اللغات الضخمة متعددة النماذج (MLLMs) من أكثر التطورات إثارة، خصوصاً في مجال فهم الفيديو. ومع ذلك، يظهر بحث جديد أنها تعاني من عدم القدرة على التعرف على غياب الإجابات الصحيحة. هذه الدراسة التشخيصية تتناول كيفية إدراك النماذج للفيديوهات عندما يتم استبعاد الإجابة الصحيحة عمدًا من الخيارات المتاحة.
يتم تقييم أداء النماذج في ثلاثة سيناريوهات متميزة: الأسئلة متعددة الخيارات المضافة إليها خيار ``لا شيء مما سبق``, التوليد المفتوح مع تعليمات الكشف، والتقييم القياسي دون أي توجيه. تشير النتائج إلى أن هذه النماذج تميل لاختيار خيارات مشوشة بدلاً من التعرف على غياب الإجابة الغائبة، خصوصاً في مهام التفكير الزمني، حيث تتعقد المشكلة مع زيادة كثافة عينات الإطارات.
من جهة أخرى، تم استكشاف استخدام أسلوب التفكير المتسلسل كإستراتيجية للتخفيف من هذه المشكلة، ورغم تحسن معدلات الكشف، إلا أن الأداء لا يزال غير مُرضٍ، مما يدل على أن الاعتماد على استراتيجيات التنبيه وحدها لا يكفي لمعالجة هذا القصور. تكشف هذه النتائج عن فشل منهجي في الكشف عن الإجابات الغائبة، مما يبرز الحاجة الملحة لتطوير آليات كشف أكثر صلابة في الأنظمة متعددة النماذج.
إذا كنت مهتمًا بتطورات الذكاء الاصطناعي، كيف تعتقد أن المستقبل سيتعامل مع هذه التحديات؟ شاركونا آراءكم في التعليقات!
عندما تكون الإجابات مفقودة: كشف عجز نماذج الذكاء الاصطناعي في فهم الفيديو
يكشف بحث جديد عن وجود عجز ملحوظ في نماذج اللغات الضخمة متعددة النماذج (MLLMs) في التعرف على الإجابات الغائبة عند فهم الفيديو، مما يستدعي تطوير آليات كشف أكثر فعالية. أداء مقلق يتطلب وسائط معالجة أفضل!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
