في السنوات الأخيرة، أصبحت نماذج الرؤية واللغة (Vision-Language Models) تشكل قوة دافعة في تطبيقات حساسة مثل التصوير الطبي والأنظمة الذاتية، لكن هذه النماذج تعاني من مشكلة حادة تعرف بالهلوسة (hallucination)، حيث تُظهر محتوى ليس موجودًا في المدخلات الخاصة بها. تبحث دراسة جديدة في الأسباب الجذرية وراء هذه الإخفاقات من خلال تحليل ميكانيكي متعمق يركز على نماذج VLMs المعتمدة على الفك (decoder-based VLMs).

تتبع الدراسة إخفاقات دقة هذه النماذج إلى انحياز هندسي مفرط (geometric over-alignment)، حيث يتم الضغط على التمثيلات البصرية بالتزامن مع الفضاء اللغوي لتحقيق الفجوة النمطية التي تتطلبها آليات الانتباه. هذا الضغط الزائد يتسبب في إدخال انحياز لغوي إحصائي يغطي على الفروق الدقيقة في الأدلة البصرية.

رغم أن الأعمال السابقة تتعامل مع هذه الفجوة من خلال طرق مكلفة للصندوق الأسود، لم يُعالج السبب الهندسي الأساسي حتى الآن. في هذا البحث، نقدم أول وصف كمي لهذا الانحياز المفرط، موضحين كيف أن هذا الانحياز اللغوي يتمركز في المكونات الرئيسية العليا لمساحة نصية عالمية لا تتعلق بمجموعة بيانات معينة.

استنادًا إلى هذه الرؤية، نقترح استراتيجيتين مكملتين: استراتيجية استنتاج غير معتمدة على التدريب ونموذج ضبط دقيق مدرك للانحياز. كلاهما يهدف إلى إخراج هذا الفضاء من التمثيلات البصرية. وقد أظهرت طرقنا انخفاضًا ملحوظًا في حالات الهلوسة عبر معيار POPE وCHAIR وAMBER، بالإضافة إلى تحسين الدرجات في مهام التوصيف الطويلة المدى (CLAIR)، دون إضافة عبء حسابي إضافي على النموذج الأساسي.

إن هذه الاكتشافات تمثل خطوة كبيرة نحو تحسين موثوقية نماذج الرؤية واللغة، مما يفتح الطريق لتطبيقات أكثر دقة والأهم من ذلك - أكثر أمانًا في مجالات حيوية تحتاج إلى حركة دائمة نحو الابتكار.