في عالم الذكاء الاصطناعي المتسارع، تعتبر النماذج اللغوية الكبيرة (Large Language Models - LLMs) القوة الدافعة للتطورات التقنية الهامة. لكن مع هذه الإمكانيات الهائلة تأتي تحديات كبيرة، خاصة في كفاءة استنتاج النتائج.

تمثل معمارية Mixture of Experts (MoEs) حلاً مبتكراً بهذا الخصوص، حيث تفصل بين حجم النموذج والتكلفة الاستنتاجية. للأسف، تدريب MoEs من الأساس غالباً ما يكون غير مستقر ويتطلب موارد حاسوبية ضخمة. لكن هناك بارقة أمل مع ظهور أساليب تحويل النماذج الكثيفة المدربة مسبقاً إلى MoEs متفرقة.

إن الأساليب الحالية تعتمد غالباً على تجميع العصبونات بشكل عشوائي أو توزيعات عشوائية لتقسيم الشبكة إلى خبراء. وفي هذا السياق، يطرح الباحثون مفهوم DOT-MoE كإطار عمل جديد يعيد صياغة عملية decomposing للطبقات الكثيفة كمشكلة نقل مثالي تفاضلي (Differentiable Optimal Transport - DOT).

بدلاً من الاعتماد على heuristics ثابتة، يقوم هذا الإطار بالنمذجة كإشكالية نقل متوازن، مستفيداً من خوارزميات Sinkhorn-Knopp التفاضلية لفرض قيود صارمة على سعة الخبراء. علاوة على ذلك، يتم استخدام مقدرات Straight-Through (STE) لتعلم تعيين العصبونات للخبراء وسياسة توجيه الرموز بشكل متزامن.

أظهرت التجارب الشاملة عبر عدة معمارية ومعايير أداء، أن DOT-MoE يتفوق بشكل كبير على أساليب القطع الهيكلي والتجميع العشوائي، حيث احتفظ بـ 90% من أداء النموذج الكثيف الأصلي بينما قلل من المعلمات النشطة بنسبة 50%.

إذا كنت مهتماً بالتطويرات في تقنيات الذكاء الاصطناعي، ما رأيكم في هذا الاقتراح الثوري؟ شاركونا في التعليقات.