تعتبر فهم التحولات الفيزيائية أمرًا أساسيًا للتفكير في البيئات الديناميكية. ورغم أن نماذج الرؤية اللغوية (Vision Language Models - VLMs) تُظهر وعودًا في التطبيقات الملموسة، إلا أن السؤال الذي يطرح نفسه هو مدى قدرتها الحقيقية على فهم هذه التحولات.
لتقييم هذا الجانب، قدم الباحثون اختبارًا جديدًا يُسمى "ConservationBench" يتناول موضوع الحفاظ على المقادير الفيزيائية، أي ما إذا كانت هذه المقادير تبقى ثابتة تحت التحولات. هذا الاختبار يمتد عبر أربع خصائص مع سيناريوهات متزاوجة بين السيناريوهات المحفوظة وغير المحفوظة، حيث تم توليد وتقييم 23,040 سؤالًا على مدى 112 نموذجًا من نماذج الرؤية اللغوية.
أظهرت النتائج فشلًا منهجيًا، حيث كانت الأداءات قرب حدود الصدفة، رغم تحسن الأداء في مهام الحفظ المصاحبة بتراجع في مهام التحكم. تجارب التحكم أكدت وجود أسبقيات نصية قوية تفضل الثبات، إلا أن النماذج كانت أسوأ أداءً مع المحتوى المرئي الفعلي، حينما كانت الأداءات متوازنة عبر السيناريوهات المحفوظة وغير المحفوظة. ولم تنجح محاولات تحسين مثل الدقة الزمنية، التحفيز، أو الاختيار المنسق في تحسين الأداء.
تُظهر هذه الاكتشافات أن نماذج الرؤية اللغوية الحالية تفشل في الحفاظ على تمثيلات مستقلة عن التحولات لخصائص الفيزياء عبر المشاهد الديناميكية. فهل نستطيع الاعتماد على هذه النماذج في المستقبل؟
هل تستطيع نماذج الرؤية اللغوية (VLMs) فهم التحولات الفيزيائية؟ اكتشافات صادمة!
تكشف الدراسة عن ضعف نماذج الرؤية اللغوية (VLMs) في فهم التحولات الفيزيائية، مما يثير تساؤلات حول قدرتها على التعامل مع البيئات الديناميكية. تم تقديم اختبار جديد يقيم مدى ثبات المقادير الفيزيائية تحت التحولات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
