تشهد [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) [متعددة الوسائط](/tag/متعددة-الوسائط) ([MLLMs](/tag/mllms)) تطوراً سريعاً، مما يعكس اهتماماً متزايداً بفهم الفيديو من منظور شخصي. يستهدف هذا الفهم [التفاعلات](/tag/التفاعلات) الدقيقة بين اليد والأشياء، وتتبع [تغييرات](/tag/تغييرات) حالة الأشياء بمرور الوقت، وقدرة النموذج على [التفكير](/tag/التفكير) حول العمليات في البيئات الديناميكية.
ومع ذلك، تعاني [المعايير](/tag/المعايير) الحالية من نقص في [تقييم](/tag/تقييم) [المنطق](/tag/المنطق) الجذري، مما يجعلها غير ملائمة لدعم [التفكير](/tag/التفكير) الدقيق الذي يرتكز على العمليات. لذلك، أُطلق معيار EgoCoT-Bench، الذي يقدم تقييمًا دقيقًا ومتماسكًا لعمليات [التفكير](/tag/التفكير) القائم على [المنطق](/tag/المنطق) الجذري، مع تقديم توضيحات خطوة بخطوة.
يتضمن معيار EgoCoT-Bench 3,172 زوج سؤال وجواب يمكن [التحقق](/tag/التحقق) منها، موزعة على 351 [فيديو](/tag/فيديو) ذاتي، مقسمة إلى أربع مجموعات مهام تشمل الإدراك، والتأمل، والتوقع، والتفكير عالي المستوى. تم [بناء](/tag/بناء) هذا المعيار من خلال إطار [عمل](/tag/عمل) يقوم على رسومات مشهد زمني ومكاني، وقام المُعَلِّمون من البشر بمراجعة [البيانات](/tag/البيانات) لضمان [دقة](/tag/دقة) وجودة [التحليل](/tag/التحليل).
تظهر النتائج التجريبية الصعوبات المستمرة في [التفكير](/tag/التفكير) الدقيق الذاتي، وتوضح أن العديد من [النماذج](/tag/النماذج) [متعددة الوسائط](/tag/متعددة-الوسائط) تقدم [تفسيرات](/tag/تفسيرات) صحيحة من حيث الإجابة، ولكن [الأدلة](/tag/الأدلة) المقدمة قد تكون غير متسقة مع هذه الإجابات. نأمل أن يصبح EgoCoT-Bench [منصة](/tag/منصة) مفيدة للاختبار في [فهم الفيديو](/tag/[فهم](/tag/فهم)-الفيديو) الذاتي.
للاستزادة، يمكنكم زيارة صفحة المشروع والمواد المكملة: [EgoCoT Project Page](https://dstardust.github.io/EgoCoT/)