على الرغم من التطورات الكبيرة التي حققتها نماذج اللغات الضخمة المتعددة الوسائط (MLLMs) في فهم الفيديو، إلا أنها لا تزال عرضة بشكل كبير للأخطاء في المشاهد الديناميكية. نرى أن هذه المشكلة ناتجة عن قصور في الرصد الزمني المكاني، والذي يُعتبر القدرة على تتبع هوية الكائنات، حالاتهم، وعلاقاتهم عبر الزمن.

تهدف التقنيات الحالية إلى تقييم النماذج عبر استجابات نهائية واحدة، مما يخفي نقصًا كبيرًا في فعالية الرصد. ومن أجل معالجة هذا القصور ، قمنا بتقديم STEMO-Bench (Spatio-TEmporal MOnitoring)، وهو معيار يعتمد على الحقائق المعتمدة من قبل البشر والذي يقيم التفكير الوسيط عن طريق تفكيك الاستفسارات إلى أسئلة فرعية، مما يميز بين الفهم الزمني الحقيقي والصحيح العرضي.

لإصلاح آليات الفشل التي تم الكشف عنها من خلال STEMO، اقترحنا STEMO-Track، وهو إطار عمل جديد يتمحور حول الكائنات، يقوم بشكل صريح ببناء والتفكير خلال مسارات الكائنات المهيكلة عبر استخراج حالات القطع والتجميع الزمني.

أظهرت التجارب المكثفة أن إطار العمل المخصص للأجسام يقلل بشكل كبير من الإجابات المتخيلة، ويعزز اتساق التفكير الزمني المكاني مقارنةً بأفضل نماذج MLLMs المُتاحة حاليًا. هذه التطورات تعزز من دقة النماذج وتفتح آفاق جديدة لفهم الفيديو الذكي.

إذا كنتم تتطلعون إلى المزيد من الابتكارات في الذكاء الاصطناعي، يسرّنا سماع آرائكم حول هذه التقنية الجديدة! كيف تعتقدون أنها ستؤثر على مستقبل نماذج الفهم بالفيديو؟ شاركونا في التعليقات.