تعتبر نماذج Mixture-of-Experts (MoE) من الابتكارات الرائدة في تصميم نماذج اللغة الكبيرة (Large Language Models)، حيث توفر سعة أكبر بتكلفة حسابية منخفضة من خلال توجيه المدخلات ديناميكياً إلى الخبراء الملائمين. ومع ذلك، تظهر مشكلة حرجة تدعى "سلامة الندرة" (Safety Sparsity) حيث تتركز القدرات الأمنية في عدد قليل من الخبراء، مما يجعلها عرضة للاختراقات. في الوقت نفسه، تعاني الأساليب التقليدية في محاذاة الأمان من عدم قدرتها على التكيف مع اختلاف وظائف الخبراء، مما يؤدي إلى تدهور الأداء.

لذا، نقدم MESA (MoE Safety Alignment)، وهو إطار محاذاة مستهدف لنماذج MoE التي يهدف إلى لامركزية مسؤوليات السلامة. يعتمد هذا الإطار على نظرية النقل الأمثل (Optimal Transport) من خلال آليتين رئيسيتين:

1. **إعادة تخصيص سعة الخبراء**: تستخدم هذه الآلية مصفوفة تكلفة النقل لتوزيع المسؤوليات الأمنية على الخبراء الأكثر كفاءة من حيث التكلفة، مما يساعد في تحسين التوزيع.
2. **تحسين توجيه النظام**: يقيد هذه الآلية المسار لتفعيل الوحدات اللامركزية بصورة دقيقة وفعالة.

أظهرت التجارب أن MESA تحقق أداءً دفاعياً قوياً ضد مجموعة متنوعة من المعايير الضارة، مع الحفاظ على مستوى عالٍ من الفائدة. لمزيد من المعلومات والشفرة المصدرية، يمكنك زيارة GitHub.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.