تُعتبر نماذج اللغة متعددة الأنماط (Multimodal Large Language Models - MLLMs) من أبرز الابتكارات في مجال الذكاء الاصطناعي، حيث تجمع بين معالجة النصوص والصور بسلاسة. ولكن كيف يمكن تحسين أدائها؟ الباحثون توصلوا إلى طريقة مبتكرة يُطلق عليها "توافق التمثيل على مستوى الرؤوس" أو HeRA.

ينبغي أن نعلم أن معظم الطرق التقليدية كانت تُركز على محاذاة طبقة ثابتة من نموذجات اللغة، متجاهلة البنية الدقيقة لنماذج Transformer. لكن نهج HeRA يعتمد على مبدأ يُعرف باسم فرضية التمثيل الأفلاطوني، حيث يُركز على الحفاظ على الهيكل الطوبولوجي للتمثيلات عبر الأنماط المختلفة.

يعمل HeRA من خلال فرض توازن عبر محاذاة رؤوس الانتباه (Attention Heads) الفردية، مما يُحدث تغييرًا كبيرًا في فعالية النموذج. وباستخدام مقياس محاذاة الجيران الأقرب المتبادل (Mutual K-Nearest Neighbor - MKNN)، تم دعم أسلوب HeRA بموضوع قاسي يعمل كبديل يمكن تمييزه لمطابقة الهياكل المحلية.

المثير في الأمر، أن أبحاثهم أظهرت أن محاذاة أقل الرؤوس توافقًا كانت تسفر عن أكبر المكاسب في الأداء. وتم تقييم HeRA بشكل موسع عبر عدة نماذج وعدد كبير من المعايير، مما أكد أن هذه الطريقة تُحسن الأداء على المهام البصرية المعقدة، وتُعتبر فعالة ضد الهلاوس البصرية التي قد تحدث في بعض الحالات، حيث تُقلل من الاعتماد المفرط على المفاهيم اللغوية.

لمزيد من التفاصيل، يمكنكم الاطلاع على الشيفرة المصدرية التي تم نشرها بشكل عام. ما رأيكم في هذه النهضة الجديدة في مجال الذكاء الاصطناعي؟ شاركونا في التعليقات.