تشهد نماذج الفيديو متعددة الوسائط (Large Multimodal Models) تطوراً مذهلاً في القدرة على فهم المحتوى، لكن لا تزال تعاني من ظاهرة الهلوسة (hallucination) التي تؤثر سلباً على نتائجها. في هذا السياق، ظهر نهج جديد يسمى ViSSRes، وهو تقنية تدخلية في وقت الاستدلال تهدف إلى تعزيز تمثيلات الفيديو بطريقة مبتكرة.

تستخدم ViSSRes شبكة بسيطة على طراز MLP لتحسين جودة التمثيلات. من خلال أسلوب التجول العشوائي التبادلي (contrastive random walk)، تتمكن هذه التقنية من وصف التناسق الزمني والمكاني للتمثيلات الفيديوية، مما يعزز الفهم الدلالي للنموذج. تتيح هذه الطريقة الفريدة للنموذج تعلم الفروق بين التمثيلات السابقة والجديدة، مع الحفاظ على هيكل النموذج الأساسي ثابتًا.

أهم ما يميز ViSSRes هو أنها تتطلب فقط عملية واحدة للتمرير للأمام (single forward pass) خلال وقت الاستدلال، دون إضافة تكاليف إضافية كبيرة. ولقد أظهرت التجارب أن هذه التقنية تمكنت من تقليل معدل الهلوسة في نموذج LLaVA-NeXT-Video بنسبة 40.69%، كما حسنت دقة الفهم في مجموعة بيانات MMVU بنسبة 18.36% تحت إعداد CoT، مما يثبت فعالية هذه الطريقة في التعامل مع تحديات الهلوسة.

إن هذه التطورات تمثل خطوات مهمة نحو تحسين كيفية دراسة وتحليل الفيديو، وتؤكد على الابتكارات المستمرة في مجال الذكاء الاصطناعي. ما رأيكم في هذه التطورات المثيرة؟ هل ترون أن هذه التقنيات ستغير مستقبل نماذج الفهم؟ شاركونا في التعليقات.