تعتبر نماذج Mixture-of-Experts (MoE) من الابتكارات الرائدة في تصميم نماذج اللغة الكبيرة (Large Language Models)، حيث توفر سعة أكبر بتكلفة حسابية منخفضة من خلال توجيه المدخلات ديناميكياً إلى الخبراء الملائمين. ومع ذلك، تظهر مشكلة حرجة تدعى "سلامة الندرة" (Safety Sparsity) حيث تتركز القدرات الأمنية في عدد قليل من الخبراء، مما يجعلها عرضة للاختراقات. في الوقت نفسه، تعاني الأساليب التقليدية في محاذاة الأمان من عدم قدرتها على التكيف مع اختلاف وظائف الخبراء، مما يؤدي إلى تدهور الأداء.
لذا، نقدم MESA (MoE Safety Alignment)، وهو إطار محاذاة مستهدف لنماذج MoE التي يهدف إلى لامركزية مسؤوليات السلامة. يعتمد هذا الإطار على نظرية النقل الأمثل (Optimal Transport) من خلال آليتين رئيسيتين:
1. **إعادة تخصيص سعة الخبراء**: تستخدم هذه الآلية مصفوفة تكلفة النقل لتوزيع المسؤوليات الأمنية على الخبراء الأكثر كفاءة من حيث التكلفة، مما يساعد في تحسين التوزيع.
2. **تحسين توجيه النظام**: يقيد هذه الآلية المسار لتفعيل الوحدات اللامركزية بصورة دقيقة وفعالة.
أظهرت التجارب أن MESA تحقق أداءً دفاعياً قوياً ضد مجموعة متنوعة من المعايير الضارة، مع الحفاظ على مستوى عالٍ من الفائدة. لمزيد من المعلومات والشفرة المصدرية، يمكنك زيارة GitHub.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
MESA: تحسين سلامة نماذج Mixture-of-Experts من خلال الخبرة اللامركزية!
تسعى MESA إلى تعزيز سلامة نماذج Mixture-of-Experts (MoE) عبر decentralizing (اللامركزية) المسؤوليات، مما يحقق تغطية شاملة مع الحد من التداخل في الأداء. تعرَّف على كيف توفر هذه الإطار استجابة قوية ضد التهديدات!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
