تشهد نماذج الرؤية-اللغة (Vision-Language Models) نجاحاً ملحوظاً مؤخراً، يُعزى بشكل رئيسي إلى قدرتها على التوافق الفعال بين الأنماط المختلفة مثل الرؤية واللغة. ومع ذلك، لا تزال هناك فجوات في هذه الأنماط، مما يثير تساؤلات حول تأثيرها في الإدراك البشري. الدراسات السابقة أظهرت وجود ظواهر معينة مرتبطة بالنمط مثل نسيج الصورة ونبرة اللغة.

في أحدث الأبحاث، قدم الباحثون مقياساً جديداً يُعرف بـ "مقياس هيمنة الأنماط" (Modality Dominance Score - MDS)، والذي يعمل على تصنيف الميزات متعددة الأنماط إلى ثلاث فئات: الميزات المهيمنة على الرؤية، الميزات المهيمنة على اللغة، والميزات المشتركة بين الأنماط. يهدف هذا التصنيف إلى تحسين فهم الآليات المعقدة التي تعمل في نماذج الرؤية-اللغة.

علاوة على ذلك، قدم الباحثون مقاييس جديدة لقياس قابلية التفسير لهذه الميزات بشكل آلي وقابل للتوسع. وهذا يمكن المطورين من تحليل النتائج وفهم كيفية تحسين أداء نماذج الذكاء الاصطناعي على المهام المعقدة.

كما أظهرت التجارب أن تحرير النماذج بدون تدريب ساعد على تعزيز الأداء في المهام التالية: تقليل التحيز في تصنيف الجنس، إنشاء أمثلة عدائية بين الأنماط، وتمكين التحكم الخاص بالنمط في توليد الصور من النصوص.

من خلال دمج أدوات تفسير غير مرتبطة بالمهام، تقدم هذه الدراسة رؤى جديدة تسمح بإجراء تحليلات منهجية وتعديلات خفيفة على نماذج متعددة الأنماط. هذا الإنجاز يفتح المجال لمزيد من الأبحاث والتحسينات التي يمكن أن تحدث ثورة في مجال الذكاء الاصطناعي.