أُطلق العنان لتحدي جديد في عالم الذكاء الاصطناعي من خلال دراسة رائدة يبحثها الباحثون في نماذج الرؤية واللغة (Vision-Language Models) وقدرتها على حل الألغاز المعقدة بطريقة مشابهة للبشر. هذه الدراسة تقدم أداة جديدة تُعرف باسم 'نموذج الرؤية واللغة ضد الآلة الرائعة' (VLATIM)، وهي اختبار مصمم خصيصاً لتقييم مهارات التفكير المنطقي والتفاعلي في اللعبة الكلاسيكية 'الآلة الرائعة 2' (The Incredible Machine 2).

على الرغم من أن نماذج الرؤية واللغة قد حققت تقدماً كبيراً في العديد من المجالات، إلا أن التحديات في البيئات التفاعلية تتطلب مزيداً من البحث. يستخدم اختبار VLATIM منهجية جديدة تتجاوز الاختبارات التقليدية التي غالباً ما تتجاهل التعقيد الحقيقي لتخطيط الأدوار الذكية. تأخذ الاختبارات شكل خمس مراحل متقدمة، تقيّم القدرات من أساسيات فهم الصورة إلى المناورات المركبة وحل الألغاز بالكامل.

تشير النتائج إلى وجود فجوة ملحوظة بين التخطيط والتنفيذ. بينما تظهر النماذج الكبيرة المُعتمَدة مهارات تخطيط متفوقة، إلا أنها تواجه صعوبة في تحقيق التوافق البصري الدقيق. بالتالي، لا تزال هذه النماذج بعيدة عن إظهار القدرات البشرية الحقيقية في حل المشكلات.

إن دراسة VLATIM ليست مجرد خطوة فنية، بل هي دعوة لوضع استراتيجيات جديدة تدفع حدود ما يمكن لأساليب الذكاء الاصطناعي تحقيقه. فمع ارتفاع تعقيد الطلبات التفاعلية، يصبح من الضروري تطوير نماذج تقدم المزيد من التفكير الاستراتيجي والتفاعل البصري الصحيح.