في عالم يتطور فيه الذكاء الاصطناعي بسرعة، يظهر تحدٍ جديد يمس الكثير من جوانب التعلم الآلي. تمثل نماذج اللغة متعددة الوسائط (MLLMs) أحد الأعمدة الأساسية للتطبيقات الذكية، لكن السؤال المطروح هو: هل تستطيع هذه النماذج التنبؤ بالعواقب الفيزيائية للأفعال من منظور ذاتي؟

في هذا السياق، تم تقديم مقاربة جديدة من خلال معيار تحت مسمى EXPLORE-Bench، الذي يتيح تقييم دقيق لقدرة هذه النماذج على التنبؤ بالمشاهد من خلال سيناريوهات حقيقية مأخوذة من مقاطع فيديو من منظور شخصي. يتطلب هذا المعيار تقديم صورة لمشهد أولي وسلسلة من الأفعال، ثم توقع المشهد النهائي بعد تنفيذ كافة الأفعال.

يتضمن EXPLORE-Bench تجميعاً متنوعاً من المشاهد، مع توجيهات مفصلة تشمل الفئات الشيئية، والسمات البصرية، والعلاقات بين الأجسام، مما يوفر أساساً لقياس دقيق للأداء. تشير التجارب على مجموعة متنوعة من نماذج MLLMs، سواء كانت تجارية أو مفتوحة المصدر، إلى وجود فجوة ملحوظة في الأداء مقارنة بالبشر.

تشير النتائج إلى أن التفكير على المدى الطويل للمشاهد الذاتية يمثل تحدياً كبيراً، ولكن كما أظهرت الدراسات، يمكن تحسين الأداء من خلال تقسيم الأفعال الطويلة، رغم الزيادة في التعقيد الحسابي.

ختاماً، يوفر EXPLORE-Bench منصة قوية تقيس وتعزز قدرات التفكير على المدى الطويل في إدراك الأجسام الذاتية، مما يمثل خطوة هامة نحو تحسين كيفية فهم نماذج الذكاء الاصطناعي للمشاهد التي يتفاعل معها المستخدمون.

ما رأيكم في استخدام نماذج الذكاء الاصطناعي في التنبؤ بالمشاهد؟ هل تعتقدون أنها ستتفوق على الإنسان يوماً ما؟ شاركونا في التعليقات!