تشهد نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) تطوراً سريعاً، مما يعكس اهتماماً متزايداً بفهم الفيديو من منظور شخصي. يستهدف هذا الفهم التفاعلات الدقيقة بين اليد والأشياء، وتتبع تغييرات حالة الأشياء بمرور الوقت، وقدرة النموذج على التفكير حول العمليات في البيئات الديناميكية.
ومع ذلك، تعاني المعايير الحالية من نقص في تقييم المنطق الجذري، مما يجعلها غير ملائمة لدعم التفكير الدقيق الذي يرتكز على العمليات. لذلك، أُطلق معيار EgoCoT-Bench، الذي يقدم تقييمًا دقيقًا ومتماسكًا لعمليات التفكير القائم على المنطق الجذري، مع تقديم توضيحات خطوة بخطوة.
يتضمن معيار EgoCoT-Bench 3,172 زوج سؤال وجواب يمكن التحقق منها، موزعة على 351 فيديو ذاتي، مقسمة إلى أربع مجموعات مهام تشمل الإدراك، والتأمل، والتوقع، والتفكير عالي المستوى. تم بناء هذا المعيار من خلال إطار عمل يقوم على رسومات مشهد زمني ومكاني، وقام المُعَلِّمون من البشر بمراجعة البيانات لضمان دقة وجودة التحليل.
تظهر النتائج التجريبية الصعوبات المستمرة في التفكير الدقيق الذاتي، وتوضح أن العديد من النماذج متعددة الوسائط تقدم تفسيرات صحيحة من حيث الإجابة، ولكن الأدلة المقدمة قد تكون غير متسقة مع هذه الإجابات. نأمل أن يصبح EgoCoT-Bench منصة مفيدة للاختبار في فهم الفيديو الذاتي.
للاستزادة، يمكنكم زيارة صفحة المشروع والمواد المكملة: EgoCoT Project Page