تعتبر تقنيات دمج النماذج (Model Merging) من الحلول الاقتصادية الحديثة التي تهدف إلى دمج قدرات عدة نماذج لغوية ضخمة (Large Language Models) دون الحاجة لإعادة تدريبها. إلا أن التحديات تظل قائمة، خاصة عند تطبيق هذه التقنيات على هياكل نماذج Mixture-of-Experts (MoE).
في الآونة الأخيرة، تم التعرف على مشكلة حيوية تتعلق بدمج هذه النماذج تُعرف بـ "انهيار التوجيه" (Routing Breakdown). يحدث هذا النوع من الفشل عندما يفشل جهاز التوجيه المدمج في توزيع الرموز على الخبراء المناسبين، مما يؤدي إلى تدهور الأداء. ويرجع هذا الانهيار إلى حساسية آلية التوجيه غير الخطية مثل Softmax وآلية Top-k للتوزيع، والتي تتأثر بالاضطرابات الناتجة عن عملية الدمج.
تمثل الخبراء المتخصصين في مجالات معينة تحديًا إضافيًا، حيث يمكن أن يؤدي حتى التوجيه الخاطئ البسيط إلى تدهور كبير في الأداء. للتغلب على هذه المشكلة، تم تقديم إطار عمل جديد يُعرف باسم "معايرة جهاز التوجيه المُدرك للمصادر الثانويّة" (Hessian-Aware Router Calibration - HARC). هذا الإطار يدعم إعادة توجيه المدمج بفعالية دون الحاجة إلى التدريب، من خلال الاستفادة من معلومات الانحناء من الدرجة الثانية.
تظهر التجارب في مجالات مثل التفكير الرياضي وتوليد الأكواد كيف أن نموذج HARC يمكن أن يخفف من مشاكل الانهيار في التوجيه عبر منصات الدمج المختلفة لنموذج MoE، مما يؤدي إلى تحسينات كبيرة في الأداء. يمكن الاطلاع على الشيفرة المصدرية الخاصة بنا على GitHub.
في عالم يتطور بسرعة كما هو الحال اليوم، كيف يمكن لتقنية HARC أن تؤثر على مستقبل جمع المعلومات والذكاء الاصطناعي؟
كيف يغير HARC مستقبل دمج نماذج الذكاء الاصطناعي؟
تمثل تقنيات دمج النماذج (Model Merging) خطوة مبتكرة في تعزيز قدرات نماذج الذكاء الاصطناعي دون الحاجة لإعادة تدريب. تعرفوا على كيفية دعم HARC في التغلب على التحديات المرتبطة بآليات التوجيه في نماذج Mixture-of-Experts (MoE).
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
