تعتبر عملية التفكير المكاني من الفيديوهات التي تعتمد على رؤية شخصية (egocentric) من التحديات المعقدة، حيث تقتصر الأدلة المرئية على مسار الكاميرا. تستخدم الطرق الحالية طرق استخلاص معلومة تعتمد على دورات استنتاج واحدة، مما يستدعي نماذج الذكاء الاصطناعي لحل الغموض الهندسي عبر معرفتهم السبعيد.

لكن ماذا لو كان بإمكاننا إعادة فرض هذه النتائج عندما تتوفر وجهات نظر جديدة؟ هنا يأتي دور إطار العمل الجديد المعروف باسم Reason, then Re-reason (ReRe) الذي يوفر حلاً مبتكراً.

تقسم هذه الطريقة إلى مرحلتين رئيسيتين: في مرحلة Reason، يتم تشكيل فرضية مكانية مستندة إلى الفيديو الأصلي بواسطة نموذج لغوي ضخم (MLLM)، بينما في مرحلة Re-reason، يتم التحقق من الفرضية أو تعديلها من خلال مشاهدة فيديو تم تصويره من وجهة نظر جديدة.

تعتمد هذه القدرة على إعادة التفكير على تقنية تصميم قائمة على هندسة الفيديو تمكّن النموذج من عرض وجهات نظر مكملة تتسم بزاوية رؤية مرتفعة، مما يضمن تغطية المشهد بشكل كامل دون الحاجة إلى تعديل بنية النموذج.

أظهرت التقييمات المنجزة على VSI-Bench وSTI-Bench أن هذه الطريقة تعزز بشكل كبير أداء نماذج اللغات الضخمة مفتوحة المصدر وتنافس الأداء الرائد في القطاع.

إذا كنت تريد أن تعرف كيف يمكن لهذا العمل الإبداعي أن يحسن الأدوات المتاحة لنماذج الذكاء الاصطناعي اليوم، فلا تتردد في الاستفسار!