تتطور تقنيات فهم مشاهد الروبوتات بشكل متزايد، حيث تعتمد بشكل متزايد على نماذج الرؤية واللغة (Vision-Language Models - VLMs) لتوليد أوصاف طبيعية للبيئات المحيطة بها. تأتي دراسة جديدة لتسلط الضوء على ضعف هذه النماذج عندما يتعلق الأمر بفهم الأجسام الملتقطة في مشاهد الطاولات بواسطة روبوتات المناورة. في هذه الدراسة، تم تقديم تحول مادي يتحكم فيه، يتناقض بين الأدوات الحقيقية ونظيراتها المطبوعة بتقنية ثلاثية الأبعاد التي تختلف في الملمس واللون والمواد.

لقد قمنا بإجراء تقييم شامل لعملية كتابة تسميات للأشياء المنظورة من زاوية واحدة، حيث تم اختبار مجموعة من أفضل نماذج VLM القابلة للتطبيق محلياً عبر عدة معايير. أظهرت نتائجنا أن هذه النماذج تستطيع وصف الأجسام الحقيقية بشكل فعال، لكن أداؤها تدهور بشكل ملحوظ عند التعامل مع العناصر المطبوعة بتقنية ثلاثية الأبعاد، رغم تشابهها البنيوي.

تسليط الضوء على الثغرات الحيوية في المعايير القياسية للتقييم، يكشف أيضاً أن بعض هذه المعايير تفشل في اكتشاف التحولات المكانية أو تكافئ الأوصاف اللغوية السليمة ولكنها غير صحيحة حقائقياً. هذه النتائج تبرز القيود في استخدام نماذج الأساس في التطبيقات الروبوتية وتؤكد على الحاجة لتطوير هياكل ونماذج تقييمية أكثر قوة.

إذاً، ما هي الحلول التي يمكن اعتمادها لتحسين قدرات هذه النماذج في التعامل مع التغيرات المكانية؟ هل تحتاج الذكاء الاصطناعي إلى إعادة تقييم؟ شاركونا بأرائكم!