تشهد نماذج الخبراء المختلطين (Mixture-of-Experts - MoE) ثورة حقيقية في عالم الذكاء الاصطناعي، حيث تُعتبر واحدة من أبرز الأنماط التي تسهم في توسيع نطاق نموذج اللغات الضخمة (Large Language Models). بينما تبرز التحديات في تكيف هذه النماذج مع المهام غير الإنجليزية، قام الباحثون بتقديم منهج جديد يُعرف باسم RA-MoE (Routing-Aligned MoE Fine-Tuning).

عادةً ما تعالج الطرق التقليدية تحسين نماذج MoE كأنها متعلمون أحاديون، مما يغفل الاختلافات المتنوعة في هيكل التوجيه الذي يتطور خلال مرحلة التدريب. ومن خلال دراسات متعددة على نماذج MoE ومهام مختلفة، تم التوصل إلى أن الطبقات الوسطى تشكل منطقة للتماalignment بين اللغات، حيث يمثل تباين التوجيه تنبؤًا قويًا لفجوات الأداء بين المهام.

يعتمد منهج RA-MoE على هذا الاكتشاف من خلال تقديم إطار ثلاثي المراحل يقوم بتصنيف أمثلة المهام المتوازية إلى تصنيف رباعي بناءً على الدقة في الإنجليزية واللغة المستهدفة. كما يقوم بتحديد الخبراء المعنيين بالمهام ضمن الطبقات الوسطى ويعزز التحسين القياسي باستخدام فقدان توجيه متلاحم يشجع توجيه لغة الهدف على اتباع نمط تنشيط خبراء المهام باللغة الإنجليزية.

أظهرت التجارب التي أجريت على ثلاثة نماذج MoE وثلاث مهام وست لغات مستهدفة أن منهج RA-MoE يتفوق باستمرار على طرق التحسين التقليدية والمرجعية القوية مثل Routing Steering وRISE، بما يُشير إلى أن نسبة ci في زوج مهمة-لغة يمكن أن تكون مؤشرًا موثوقًا على فوائد التماalignment.