تشهد نماذج الذكاء الاصطناعي المتعددة الوسائط (Multimodal Models) ثورة حقيقية في كيفية تعاملها مع العلاقات البصرية. أظهر الباحثون أن مجموعة صغيرة فقط من رؤوس الانتباه (Attention Heads) تلعب دورًا حاسمًا في نقل تمثيلات هذه العلاقات.

من خلال دراسات على نماذج معروفة مثل OpenFlamingo و Qwen3-VL، تمكن العلماء من تحديد رؤوس الانتباه التي تؤثر بشدة على التنبؤات المتعلقة بالعلاقات، وذلك باستخدام تحليل الوساطة السببية (Causal Mediation Analysis). هذه الرؤوس تمكنت من تحسين دقة النماذج في المهام غير المشروطة (Zero-shot Tasks) من خلال استخراج متجهات الوظائف المتعددة الوسائط.

لكن كيف يتم ذلك؟ ببساطة، يمكن تعديل هذه المتجهات لتعزيز أداء النموذج دون الحاجة لإعادة تدريب كامل، مما يسهل عملية التحسين. بل وفي خطوة مبتكرة، قام الباحثون بالتأكيد على أنه يمكن الجمع بين متجهات الوظائف الخاصة بالعلاقات بطريقة خطية لحل مشاكل التشابه التي تتعلق بعلاقات بصرية جديدة.

هذا التطور يُظهر أن النماذج متقدمة ليست فقط قادرة على التعلم من المعطيات المتاحة، بل إنها تتمتع بقدرة فعلية على تعميم المعرفة، مما يمهد الطريق لفهم أفضل لبنية النماذج الداخلية وتعزيز التحكم في التفكير الاستدلالي (Relational Reasoning) في النماذج متعددة الوسائط.