في عالم الذكاء الاصطناعي، تعاني نماذج اللغات الضخمة (Large Language Models) من تحديات جسيمة عند تطبيقها على الأجهزة ذات الموارد المحدودة. إلا أن لابتكار الحديث، Dense2MoE، فرصة مثيرة لتخطي تلك العقبات!

تقدم تقنية Dense2MoE نهجًا مبتكرًا من خلال دمج أساليب "القطع والرفع" (Pruning and Upcycling) عبر ما يعرف بـ Layer Fusion UpCycling (LF UC). هدفها هو تجاوز الحواجز المتعلقة باستيعاب الذاكرة عند الاستدلال.

تستند Dense2MoE على نظرية سقف الذاكرة (Roofline Theory) لتقليل الغموض المرتبط مع النماذج البيضاء من خلال قطع وحدات الانتباه الكبيرة التي تؤثر على أداء النماذج، بينما تُعيد استخدام الشبكات العصبية المتعددة الطبقات (Multi-Layer Perceptrons) لتعزيز خبراء MoE.

باتباع هذا الأسلوب، تتمكن التقنية من الحفاظ على القدرات الأساسية للنموذج وفي نفس الوقت تحد من عدد المعلمات النشطة باستخدام توجيه رمزي انتقائي. ومن خلال ميزانية محدودة للتدريب المستمر، تنجح Dense2MoE في تحويل نماذج اللغات الضخمة المتاحة عمومًا إلى نماذج مناسبة للاستخدام على الأجهزة.

من خلال التجارب الواسعة، أثبتت Dense2MoE أنها تتفوق على المعايير السابقة، حيث تتقدم بوضوح على الجبهات من حيث سرعة الاستدلال ودقة النموذج، محدثة بذلك ثورة حقيقية في عالم الذكاء الاصطناعي!

ما رأيكم في هذا التطور التكنولوجي المثير؟ شاركونا آراءكم وتعليقاتكم!