في عالم المتغيرات السريعة التي يشهدها الذكاء الاصطناعي، لا يزال فهم الفيديوهات الطويلة يمثل تحديًا كبيرًا لنماذج اللغات الكبيرة متعددة الوسائط (MLLMs). حيث أن القدرة على تحليل محتوى طويل ومعقد تعود إلى قيود في طول السياق وعدم القدرة على معالجة التفاصيل الدقيقة بدقة.

وقد سلط معيار HD-EPIC الضوء على هذه العقبات، إذ أظهر أن النماذج القوية ذات السياقات الطويلة تحقق نتائج أقل من المتوقع في مجموعة متنوعة من مهام الإجابة على الأسئلة المتعلقة بالفيديو. لذا، أتى البحث الجديد ليقدم إطارًا موحدًا يعيد هيكلة التفكير في معالجة الفيديوهات الطويلة من خلال الفصل بين نوعين من الأدلة: الأدلة الدلالية (Semantic Evidence) والأدلة البصرية (Visual Evidence).

الأدلة الدلالية تتعامل مع هيكلة الإجراءات العامة من خلال مسار استخراج يتيح الانتقال من الفهم العام إلى التفاصيل الدقيقة، بينما الأدلة البصرية المركزة على الكائنات تحافظ على التفاصيل الدقيقة من خلال استخدام صناديق الإحاطة (Bounding Boxes) والانغماس البصري (Visual Embeddings).

خلال مرحلة الاستدلال، تتم صياغة التفكير كعملية لاسترجاع الأدلة واستيعابها بناءً على الاستفسار، مما يتيح اختيار المعلومات ذات الصلة بشكل ديناميكي من كلا المصدرين. لقد حققت طريقتنا أداءً تنافسيًا في تحدي HD-EPIC-VQA عبر مجموعة من فئات المهام المختلفة.

بشكل عام، تؤكد نتائجنا أن هيكلة واسترجاع ودمج الأدلة الدلالية والبصرية بشكل صريح يعد مهمًا لتحقيق فهم فعال للفيديوهات الطويلة باستخدام نماذج اللغات الكبيرة متعددة الوسائط. هل ترون أن هذه الابتكارات ستغير طريقة عملنا مع الوسائط المختلفة؟ شاركونا في التعليقات!