في عالم الذكاء الاصطناعي، تظل نماذج اللغة متعددة الحواس (MLLMs) محور اهتمام الباحثين، خاصةً عندما يتعلق الأمر بفهم الظواهر المعقدة مثل الهلوسة الناتجة عن تعارض المعلومات. في دراسة جديدة نشرت على arXiv، تم تسليط الضوء على كيفية تأثير رؤوس الانتباه (Attention Heads) في إنتاج هذه الهلوسات.

تحدث الهلوسة الناتجة عن تعارض الحواس عندما تمنح نماذجنا الأولوية لمعلومات نصية خاطئة بينما تتجاهل الأدلة المرئية المتناقضة. لفهم أسباب فشل الأدلة المرئية في التأثير أثناء توليد المحتوى، قام الباحثون بإجراء تحليل سببي على مستوى الرؤوس عبر خمسة نماذج متميزة من MLLMs.

من خلال النتائج، تم التعرف على نوعين من رؤوس الانتباه: رؤوس تحفز الهلوسات وأخرى تقاومها. لفتت الأنظار اكتشاف عدم توازن واضح، وهو أن التأثيرات المحفزة كانت موزعة على نطاق واسع وتحمل وزنًا أكبر، بينما كانت التأثيرات المقاومة مركزة في عدد قليل من الرؤوس عالية الأهمية.

أكدت التجارب الإضافية أن هذه المجموعات تمارس تأثيرات متعارضة خلال عملية التوليد، مما يخلق هيكل توجيه غير متوازن يميل إلى إنتاج محتوى قائم على فرضيات خاطئة.

استجابةً لهذه التحديات، اقترح الباحثون التدخل المعروف بـ MACI (Modality-conflict-Aware Causal Intervention)، والذي يقوم بقمع رؤوس الانتباه المحفزة للهلوسات فقط عند اكتشاف تعارض. أثبت MACI فعاليته عبر خمسة نماذج من MLLMs، محققًا أكبر تقليص في الهلوسات مقارنةً بخيارات أخرى، مع الحفاظ على دقة ملحوظة.

تقدم هذه النتائج التفصيلية هدفًا واعدًا لتحسين تعامل MLLMs مع المعلومات المعقدة، مما يفتح الأفق لمزيد من الأبحاث في هذا المجال المتطور.

ما رأيكم في هذه الإنجازات الجديدة؟ كيف يمكن أن تؤثر على مستقبل الذكاء الاصطناعي وتطبيقاته في الحياة اليومية؟ شاركونا آرائكم في التعليقات.