تتطلب مهام الإجابة عن الأسئلة المتعلقة بالفيديو (Video Question Answering) نماذج قادرة على الاستدلال المشترك على الإشارات المكانية والزمنية واللغوية. ولكن نظراً لتعقيد المهمة، يتطلب الأمر في كثير من الأحيان استدلالات متعددة الخطوات، وهو ما يؤدي إلى عدم وضوح عملية اتخاذ القرار لدى النماذج الكبيرة متعددة الوسائط (Large Multimodal Models) الحالية.

لتجاوز هذه التحديات، يقدم باحثون مبتكرون إطار العمل أبستريم كيو إيه (UpstreamQA)، والذي يقوم بفصل وتقييم المكونات الأساسية لاستنتاج الفيديو من خلال وحدات استدلال صريحة.

تعمل هذه الوحدات على استخدام نماذج الاستدلال الكبيرة (Large Reasoning Models) لتحديد الكائنات وتوليد سياقات المشاهد قبل أن تقوم بنقل الآثار المعززة للإستدلال إلى النماذج متعددة الوسائط لتحسين الأداء في مهام الإجابة عن الأسئلة المتعلقة بالفيديو.

وفقًا للاختبارات التي تم إجراؤها على مجموعتي بيانات OpenEQA وNExTQA باستخدام نوعين من نموذج الاستدلال الكبير (o4-mini وGemini 2.5 Pro) ونوعين من نماذج الوسائط المتعددة (GPT-4o وGemini 2.5 Flash)، أظهرت النتائج أن إدخال الاستدلال الصريح يمكن أن يعزز بشكل كبير من أداء وشفافية الإجابة عن الأسئلة المتعلقة بالفيديو.

لكن ينبغي الت注意، عند تحقيق مستوى أداء عالٍ مسبقًا، قد يؤدي هذا الإجراء إلى تراجع الأداء في بعض الأحيان.

بالمجمل، يمثل أبستريم كيو إيه (UpstreamQA) إطار عمل مدروس يجمع بين الاستدلال الصريح والفهم متعدد الوسائط، مما يساهم في تعزيز الأداء والشفافية التشخيصية في مهام الإجابة عن أسئلة الفيديو في عدة سيناريوهات.