تعتبر القدرة على التفكير المكاني من العوامل الأساسية لنماذج الرؤية اللغوية (Vision-Language Models) المستخدمة في بيئات العالم الحقيقي. لكن هل تساءلت يوماً عن مدى فعالية هذه النماذج عندما يتعلق الأمر بالإجابات على أسئلة فكرية معقدة؟
الأبحاث الأخيرة تكشف عن مشكلات رئيسية تواجه هذه النماذج، حيث تقتصر المشاهدات المرئية على تمثيلات مجسمة محدودة من العالم ثلاثي الأبعاد. على سبيل المثال، يمكن أن تؤدي حالات الإخفاء (Occlusion) إلى عدم القدرة على رؤية الأجسام، بينما يمكن أن تجعل زوايا النظر (Perspective) الخصائص الهندسية مضللة. ومع ذلك، تميل المعايير الحالية لفهم التفكير المكاني إلى الافتراض بأن تلك المشاهدات كافية وموثوقة.
في هذه الدراسة، قام الباحثون بتحدي هذا الافتراض من خلال بناء إطار تقييم متحكم يُسمى SpatialUncertain، حيث قاموا بتقديم نوعين من التحديات المتعلقة بالمشاهدات: الإخفاء والغموض في المنظور. تم تصميم أسئلة مكانية يمكن الإجابة عليها تحت مشاهدات نظيفة، ولكن تحتاج إلى الامتناع تحت التحديات المُقدمة.
نتائج الاختبارات على مجموعة متنوعة من نماذج الرؤية اللغوية المفتوحة والمغلقة المصدر كشفت عن نمطين دائمين للفشل. أولاً، تميل النماذج إلى الإفراط في الثقة في إجاباتها، حيث تحاول حل مهام التفكير المكاني حتى عندما تكون الأدلة المرئية ناقصة أو مضللة، مع دقة متوسطة حول 30% في ظروف الإخفاء و10% في ظروف غموض المنظور. ثانياً، حتى عندما تتوفر وجهات نظر إضافية، فإن بعض النماذج تؤدي قرب الصدفة العشوائية في تحديد أي منها يوفر أدلة موثوقة.
تؤكد نتائج هذه الدراسة على أهمية الانتقال من مجرد تقييم دقة الإجابات إلى فحص مدى قدرة النماذج على التعرف على متى يجب الامتناع عن الإجابة وكيفية البحث عن أدلة موثوقة.
ما رأيكم في هذا التطور؟ هل تعتقدون أن النماذج ستتمكن من تحسين قدرتها على التفكير المكاني؟ شاركونا في التعليقات!
هل يمكن لنماذج الرؤية اللغوية إدراك حدودها؟ اكتشاف جديد في التفكير المكاني
تظهر الأبحاث الجديدة أن نماذج الرؤية اللغوية (VLMs) تواجه صعوبة في التعرف على متى يجب الامتناع عن الإجابة على الأسئلة المتعلقة بالمساحة. هل يمكن أن تتجاوز هذه النماذج حدودها وتوفر إجابات موثوقة؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
