في دراسة جديدة مثيرة، تم الكشف عن التحديات التي تواجه نماذج اللغة والرؤية (Vision-Language Models - VLMs) في تقدير وضع الكاميرا النسبية (Relative Camera Pose Estimation - RCPE). هذا البحث، الذي أطلق عليه اسم VRRPI-Bench، يشمل مجموعة بيانات مبنية على مشاهد RGB-D حقيقية مع حركة كاميرا تركز على الأجسام.

تطرح المشكلة بشكل ثنائي، حيث يتم تحويل تقدير وضع الكاميرا إلى مهمة تصنيف لفظية، مما يتيح قياس الكفاءة مقارنة بالبشر وأنظمة هندسية متخصصة مثل LoFTR. بينما يحقق البشر نسبة نجاح تصل إلى 0.91، وتصل أنظمة LoFTR إلى 0.99، إلا أن أفضل نموذج VLM يحقق فقط 0.66، بينما تبقى النماذج الأخرى قريبة من النتائج العشوائية.

تكشف التحليلات أن الفجوة ليست نتيجة ضعف الكفاءة في المعالجة الفراغية، لأن نماذج VLM القوية تسجل نتائج قريبة من المثالية في اختبارات الصور الواحدة، لكن أداؤها ينخفض بشكل ملحوظ في مهام تستلزم تنسيق الرؤية عبر مشاهد متعددة.

علاوة على ذلك، يُظهر البحث عدم استقرار النماذج عند عكس المصدر والهدف، حيث تصل أفضل النتائج إلى 59.7% فقط. وتبقى النماذج ضعيفة بشكل خاص في إعدادات الحركة الأحادية البسيطة، والتي تشمل حركات المحور البصري مثل التدوير وترجمة العمق.

تعتبر هذه الفجوات مفيدة في توضيح القدرات المفقودة، مثل فهم العلاقة بين المشاهد، والتفكير المتسق عبر الرؤية، وفهم حركة الكاميرا الإسقاطية. يبرز هذا البحث أهمية تطوير نماذج VLMs مع تعزيز قدرات التفكير الفراغي المتعدد المناظر.

الختام، هل تعتقد أن هذه التحديات ستؤثر على مستقبل تقنيات الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!