في عالم الذكاء الاصطناعي الحديث، تبرز نماذج اللغات متعددة الوسائط (Multimodal Large Language Models - MLLMs) كأداة قوية في معالجة المهام المعقدة التي تجمع بين الرؤية واللغة. ومع ذلك، كانت الآليات التي تعتمد عليها هذه النماذج لاستخراج الميزات المرئية ذات الصلة من السياقات الفوضوية لا تزال غامضة حتى الآن.

تسلط دراسة حديثة الضوء على تلك الآليات من خلال تحليل متعمق يكشف عن خاصية هيكلية أساسية داخل هذه النماذج: الفعالية المحدودة (Functional Sparsity) في استرجاع المعلومات متعددة الوسائط. باستخدام مقياس محدد يسمى كتلة انتباه استرجاع (Retrieval Attention Mass - RAM)، تم التعرف على مجموعة متخصصة من رؤوس الانتباه تعرف برؤوس استرجاع المعلومات السياقية (Context-aware Retrieval - CoRe) والتي تلعب دورًا محوريًا في العملية.

أظهرت الأبحاث أن رؤوس CoRe تعمل كمستخلصين مخصصين للمعلومات، بينما توزع الرؤوس الأخرى الانتباه على مناطق سياقية أوسع. ان تنفيذ تدخلات سببية أظهر أهمية هذه الرؤوس المتخصصة، حيث أن إلغاء تنشيط أعلى 5% من رؤوس CoRe يؤدي إلى تدهور كبير في أداء التفكير متعدد الوسائط، بينما كانت التأثيرات على الرؤوس الأقل تصنيفًا ضئيلة.

كما أثبتت تجارب التسريع فائدة رؤوس CoRe، حيث تبين أن استغلال هذه الفعالية المحدودة يعمل على تسريع الاستجابة مع الاحتفاظ بأداء مهام قوي. تكشف النتائج عن مبدأ هيكلي للفعالية المحدودة داخل نماذج MLLMs، مما يساهم في تحسين فهمنا للآليات المرتبطة بها ويضع أساسًا نظريًا قد يلهم تصميم المعمارية المستقبلية وتحسين النماذج.