في عالم الذكاء الاصطناعي، تبرز نماذج اللغة المتعددة الوسائط (Multimodal Large Language Models - MLLMs) كأحد أبرز التطورات التكنولوجية، حيث يُتوقع منها القدرة على العمل بناءً على المعلومات البصرية. لكن السؤال هنا هو: كيف يمكن لنموذج واحد أن يستجيب للمشاهد البصرية بناءً على سياقات مهام مختلفة؟
للإجابة على هذا التساؤل، أُطلق نموذج ROSE (Reference-conditioned Oddity and Symbolic Execution)، وهو معيار للتحقق من مدى قدرة الأنظمة الذكية على التحويل من الرؤية إلى الفعل.
يُركز ROSE على اختبار الأداء النموذجي من خلال تثبيت المشهد البصري وفي الوقت ذاته تغيير القيود الإقليمية والمخرجات الرمزية المطلوبة. عبر مجموعة من المهام تتعلق بالعد والتنسيق، يكشف ROSE إن كانت النماذج تستطيع استنتاج مرجع ضمني من خلال الأدلة المرئية المتغيرة.
أظهرت النتائج أن الأداء ينخفض بمعدلات تصل إلى 44.5% عند الانتقال من المهام المعتمدة على العد إلى تلك المشروطة بالمنطقة، رغم أن الأداء البشري بلغ 98.8%. هذه الفجوة تستمر حتى مع المشاهد والأقاليم المقرونة التي يتم فيها استخدام نفس النموذج للإبلاغ عن العدد الصحيح، مما يبرز وجود عائق خاص بالنموذج في تحويل الأدلة المرئية المشتركة إلى أفعال مطابقة للسياق.
يمثل هذا البحث خطوة هامة لفهم فعالية نماذج الذكاء الاصطناعي في بيئات ذات سياقات متنوعة ويقدم رؤى جديدة حول التحديات التي تواجه هذه النماذج في سياقات العمل اليومية.