تعتبر نماذج الرؤية واللغة الكبيرة (Large Vision-Language Models - LVLMs) من أهم الابتكارات في مجال الذكاء الاصطناعي، حيث أظهرت قدرات مدهشة في فهم العلاقة بين الصور والنصوص. ومع ذلك، تعاني هذه النماذج من مشكلة "الهلوسة" عند تنفيذ مهام معقدة، مما يؤدي إلى عدم توافق بين المدخلات البصرية والمحتوى المولَّد، وهو ما يعد تحدياً كبيراً في تطويرها.

في محاولة لمعالجة هذه المشكلة، تم تقديم بعض الحلول مثل تقنية "فك التشفير التبايني" (contrastive decoding) التي تهدف إلى تقليل الاعتماد الزائد على المعلومات اللغوية. إلا أن هذه النهج غالباً ما تتجاهل الهلوسة الناجمة عن انحياز الموقع والارتباطات الخاطئة بين الأنماط.

تقدم الورقة الحالية تقنية جديدة تُعرف باسم "تنسيق الانتباه عبر الأنماط" (Cross-Modal Attention Calibration - CMAC) التي تهدف إلى تقليل هذه الهلوسة دون الحاجة إلى إعادة التدريب. تشتمل هذه التقنية على وحدة فك تشفير بين الأنماط (Inter-Modality Decoding - IMD) التي تستخدم آلية تباينية جديدة للحد من الهلوسة، حيث تقوم هذه الوحدة بإخفاء متجهات القيم المرتبطة بأوزان الانتباه المتقاطعة وبالتالي معالجة الاعتماد الزائد على الأنماط الواحدة والارتباطات المضللة بين الأنماط.

علاوة على ذلك، تتضمن التقنية وحدة ضبط الموقع عبر الأنماط (Cross-Modal Position Calibration - CMPC) التي تقلل الفجوة بين مواضع رموز الصور، مما يخفف من تأثير الانحياز الموضعي.

أظهرت النتائج التجريبية على معايير متنوعة لتحليل الهلوسة تفوق الطريقة المقترحة على التقنيات الحديثة في مجالها، مما يعكس قدرة هذه التقنية على تحسين جودة نماذج الرؤية واللغة. التعليمات البرمجية الخاصة بهذه التقنية ستُتاح على GitHub، مما يسهل استخدامها من قبل الباحثين والمطورين في هذا المجال.

ما رأيكم في هذه التقنية؟ هل تعتقدون أنها ستسهم في تطوير نماذج أكثر دقة؟ شاركونا أفكاركم في التعليقات.