في عالم الذكاء الاصطناعي، تعد نماذج Mixture-of-Experts (MoE) من أبرز الابتكارات التي تسهم في تحسين كفاءة معالجة اللغة. لكن، على الرغم من تميز هذه النماذج في تقليل العملية الحسابية لكل حرف، تواجه صعوبة في إدارة الذاكرة نظرًا للحاجة إلى الاحتفاظ بجميع أوزان الخبراء في الذاكرة.
• توجد تحديات حقيقية في أساليب ضغط نماذج MoE، حيث تؤدي طرق التجزئة (pruning) إلى إزالة القدرة بشكل لا رجعة فيه، في حين أن تقنيات التكميم الخشن (coarse-grained quantization) تعجز عن تخصيص البتات وفقًا لأهمية الخبراء والاتجاهات المتنوعة للأوزان.
• هنا يأتي دور BitsMoE، الإطار المتقدم الذي يقترح تخصيص بتات مرشد من الطاقة الطيفية. يعتمد BitsMoE على تحليل القيم المفردة (SVD) لتفكيك كل طبقة MoE إلى أساس مشترك وعوامل طيفية خاصة بالخبراء.
• يتم الاحتفاظ بالأساس المشترك دون تكميم، لتحسين الهيكل العام عبر الخبراء، فيما تستخدم العوامل الخاصة بالخبراء كمعايير لتكميم دقيق.
• لتحديد عرض البت لكل وحدة، يقوم BitsMoE بصياغة تكميم مختلط قائم على الطيف كتعويض لإعادة البناء المعتمد على النشاط، ويحل برنامجًا خطيًا صحيحًا يقلل من فقدان إعادة البناء بالتوازي مع ميزانية ثابتة للبتات.
• التجارب التي أجريت على عدة نماذج MoE تظهر أن BitsMoE يساهم بشكل كبير في تقليل تدهور دقة المهام الهابطة في البيئات ذات البتات القليلة للغاية.
• على سبيل المثال، تحت تكميم بـ 2 بت على نموذج Qwen3-30B-A3B-Base، يسرع BitsMoE عملية التكميم بمعدل 12.3 مرة، يحسن الدقة المتوسطة بمقدار 27.83 نقطة مئوية، ويزيد من سرعة فك الترميز بمعدل 1.76 مرة مقارنةً بـ GPTQ.
• النموذج والكود متاحان للجمهور على GitHub.
الان، ماذا تنتظر لتجربتنا في هذا الاتجاه الجديد لتطوير نماذج الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!
اكتشف BitsMoE: ثورة في تخصيص البتات لنماذج لغوية ضخمة من خلال الطاقة الطيفية!
تقدم BitsMoE إطار عمل متقدم لتخصيص البتات في نماذج Mixture-of-Experts (MoE)، مما يساهم في تقليل انحدار دقة المهام الهابطة في البيئات ذات البتات ultra-low. اكتشف كيف يمكن لهذا النموذج تسريع عملية التكميم وتحسين الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
