في دراسة جديدة مثيرة، تم الكشف عن التحديات التي تواجه نماذج اللغة والرؤية (Vision-Language Models - VLMs) في تقدير وضع الكاميرا النسبية (Relative Camera Pose Estimation - RCPE). هذا البحث، الذي أطلق عليه اسم VRRPI-Bench، يشمل مجموعة بيانات مبنية على مشاهد RGB-D حقيقية مع حركة كاميرا تركز على الأجسام.
تطرح المشكلة بشكل ثنائي، حيث يتم تحويل تقدير وضع الكاميرا إلى مهمة تصنيف لفظية، مما يتيح قياس الكفاءة مقارنة بالبشر وأنظمة هندسية متخصصة مثل LoFTR. بينما يحقق البشر نسبة نجاح تصل إلى 0.91، وتصل أنظمة LoFTR إلى 0.99، إلا أن أفضل نموذج VLM يحقق فقط 0.66، بينما تبقى النماذج الأخرى قريبة من النتائج العشوائية.
تكشف التحليلات أن الفجوة ليست نتيجة ضعف الكفاءة في المعالجة الفراغية، لأن نماذج VLM القوية تسجل نتائج قريبة من المثالية في اختبارات الصور الواحدة، لكن أداؤها ينخفض بشكل ملحوظ في مهام تستلزم تنسيق الرؤية عبر مشاهد متعددة.
علاوة على ذلك، يُظهر البحث عدم استقرار النماذج عند عكس المصدر والهدف، حيث تصل أفضل النتائج إلى 59.7% فقط. وتبقى النماذج ضعيفة بشكل خاص في إعدادات الحركة الأحادية البسيطة، والتي تشمل حركات المحور البصري مثل التدوير وترجمة العمق.
تعتبر هذه الفجوات مفيدة في توضيح القدرات المفقودة، مثل فهم العلاقة بين المشاهد، والتفكير المتسق عبر الرؤية، وفهم حركة الكاميرا الإسقاطية. يبرز هذا البحث أهمية تطوير نماذج VLMs مع تعزيز قدرات التفكير الفراغي المتعدد المناظر.
الختام، هل تعتقد أن هذه التحديات ستؤثر على مستقبل تقنيات الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!
مواجهة الفضاء: نماذج اللغة والرؤية تواجه تحديات في تقدير وضع الكاميرا النسبية!
تواجه نماذج اللغة والرؤية صعوبات كبيرة في تقدير وضع الكاميرا النسبية، مما يكشف عن فجوة كبيرة في قدراتها على المعالجة الفراغية المتعددة المناظر. هذا البحث يوفر رؤى مثيرة لتطوير الذكاء الاصطناعي في المستقبل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
