تسعى نماذج الرؤية واللغة والفعل (Vision-Language-Action Models) إلى تحقيق أداءٍ قوي في اختبارات التلاعب القياسية، ولكن المشكلة الرئيسية تكمن في أن معظم التقييمات تفترض أن الأشياء الهامة في المهمة مرئية بالكامل. في العالم الحقيقي، هذا الافتراض غالباً ما يكون غير صحيح، حيث تخلق العوائق ظروفاً تجعل عملية التلاعب جزئياً قابلة للرصد فقط.

في دراستهم الجديدة، سلط الباحثون الضوء على "العوائق الناتجة عن المشهد" (scene-induced occlusion) باعتبارها تحدياً جوهرياً يواجه النماذج المذكورة، حيث قدموا نموذج LIBERO-Occ، وهو توسيع موجه نحو العوائق لنموذج LIBERO السابق.

تظهر التجارب أن نماذج الرؤية واللغة والفعل المتطورة تعاني من تدهور كبير في الأداء عند مواجهة العوائق. لكن الباحثين لم يكتفوا بتوثيق هذه المشكلة، بل اقترحوا أيضاً تقنية جديدة تحت مسمى "تخيل الزوايا" (Viewpoint Imagination). هذه التقنية تقوم بإنشاء عرض بديل complementary view من المشهد الذي تم حجب جزء منه، مما يساعد على تحسين توقعات الأفعال بناءً على الأدلة الملاحظة والمخيلة.

نجحت تقنية تخيل الزوايا في تحسين كفاءة هذه النماذج عبر مجموعة متنوعة من المهام وأنواع العوائق، دون الحاجة لاستخدام كاميرات إضافية خلال وقت التنفيذ. تشير النتائج إلى أن تخيل الزوايا يمثل آلية واعدة لإكمال الإدراك في ظروف التلاعب الجزئي.

لمزيد من المعلومات، يمكنكم زيارة رابط الكود والنموذج.