تعتبر نماذج اللغة متعددة الوسائط (MLLMs) محوراً أساسياً في تقدم الذكاء الاصطناعي، حيث تسهم في فهم المحتوى المرئي والنصي بشكل أكثر فعالية. ومع ذلك، فإن قدرتها على التعرف على الأحداث البصرية القصيرة، التي تتطلب فهماً دقيقاً للحظات الحاسمة، لا تزال قيد البحث والدراسة.
يقدم معيار Moment-Video تقييمًا جديدًا يركز على قدرة هذه النماذج في فهم اللحظات البصرية الحيّة التي قد تستمر لبضع إطارات فقط. هذه الأحداث يمكن أن تُعتبر حاسمة في تحديد الإجابات على العديد من الأسئلة العملية، مثل الحركات الموضعية أو التحولات في الحالة. لكن مشكلات مثل أخذ عينات غير مكتمل أو ضغط بيانات الصورة قد تؤدي إلى إغفال معلومات حيوية.
يحتوي معيار Moment-Video على 1000 زوج من الأسئلة والأجوبة المؤكدة بواسطة الإنسان، موزعة عبر 7 مجالات و25 فئة فرعية، ويدرس أربع أنواع من المهام: حدوث زمني، عد زمني، وصف فعل، واستدلال زمني. تم تقييم 33 نموذجًا مملوكًا ومفتوح المصدر باستخدام هذا المعيار.
الأداء الأفضل تمثل في نموذج Seed-2.0-Pro، الذي حقق دقة إجمالية قدرها 39.6%، بينما ظلت معظم النماذج المفتوحة المصدر تحت نسبة 25%. تكشف هذه النتائج عن فجوة كبيرة في فهم الأحداث البصرية اللحظية لدى النماذج الحالية. كما أظهرت التحليلات التشخيصية أن زيادة كثافة أخذ العينات قد تحسن أداء بعض النماذج، ولكنها لم تقضِ على المشكلات الكامنة. ومع إضافة مقاطع فيديو أطول، ظهرت تحديات أكبر في توطين الزمن.
تشير هذه النتائج إلى أن نماذج MLLMs الحالية لا تزال تفتقر إلى تمثيلات زمنية موثوقة لالتقاط، والحفاظ على، واستخدام الأدلة البصرية القصيرة والمهمة.
استكشاف دقة اللحظات: تقييم نماذج اللغة متعددة الوسائط في فهم الفيديو
تتقدم نماذج اللغة متعددة الوسائط (MLLMs) في فهم الفيديوهات، لكن قدرتها على التفاعل مع الأحداث البصرية اللحظية لا تزال غير مستكشفة بشكل كافٍ. نقدم في هذا المقال معيار Moment-Video لتقييم دقتها في هذه اللحظات الحيوية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
