في عالم الذكاء الاصطناعي، تبرز نماذج اللغة المختلطة (MoE) كأحد أبرز الحلول لتوسيع نطاق نماذج اللغة الضخمة (LLMs). تُعتمد هذه النماذج على تنشيط مجموعة فرعية فقط من المعاملات لكل رمز، مما يجعلها الخيار الأمثل من حيث الكفاءة الحسابية. لكن يبقى السؤال ما إذا كانت هذه التجزئة تجعل نماذج MoE أسهل في التفسير مقارنةً بالشبكات العصبية الكثيفة (FFNs).

في دراسة حديثة، تم استخدام أسلوب الشفافية (probing) لتسليط الضوء على الاختلافات بين أعصاب الخبراء (expert neurons) وFFNs الكثيفة، حيث أظهرت النتائج أن الأعصاب في نماذج MoE أقل تعدد معاني بشكل مستمر. كلما زادت التجزئة في التوجيه، اتسع الفجوة، مما يشير إلى أن هذه الخصائص تدفع الأعصاب والخبراء نحو معنى واحد.

بفضل هذه النتائج، تم تسليط الضوء على أهمية تحليل مستوى الخبراء بدلاً من الأعصاب الفردية، حيث قدمت الدراسة أداة فعالة لتفسير مئات الخبراء بشكل تلقائي. هذا التحليل يُظهر أن الخبراء ليسوا متخصصين في مجالات واسعة مثل البيولوجيا فقط، ولكنهم يعملون كخبراء مهمين في مهام لغوية محددة، مثل معالجة علامات الإغلاق في LaTeX.

في النهاية، تشير النتائج إلى أن نماذج MoE يمكن فهمها بشكل أفضل على مستوى الخبراء، مما يفتح الآفاق لتفسير أكثر وضوحًا لنماذج الذكاء الاصطناعي الكبرى.