في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتسارع، تطل علينا [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تُدعى HELLoRA، والتي تمثل نقلة نوعية في كيفية [تحسين](/tag/تحسين) [نماذج](/tag/نماذج) المزيج من الخبراء (Mixture-of-Experts [Models](/tag/models)). هذه [التقنية](/tag/التقنية) تعتمد على التكيّف منخفض الرتبة ([Low-Rank Adaptation](/tag/low-rank-adaptation) أو [LoRA](/tag/lora)) وتستحدث تطبيقها بذكاء في ظل [نماذج](/tag/نماذج) المزيج من الخبراء التي تتميز بأنماط تفعيل نادرة.
من خلال التركيز على الأكثر نشاطًا من الخبراء في كل طبقة، تتيح [HELLoRA](/tag/hellora) تقليل [عدد](/tag/عدد) المعلمات المدربة بشكل كبير، وتحقق في الوقت ذاته [تحسينات](/tag/تحسينات) ملحوظة في [الأداء](/tag/الأداء). هذا [الابتكار](/tag/الابتكار) يعكس نوعًا من التنظيم الهيكلي الذي يعزز [التخصص](/tag/التخصص) المسبق لأي خبير، مما يؤدي إلى نتائج أكثر [دقة](/tag/دقة) وكفاءة.
عند اختبار [HELLoRA](/tag/hellora) تحت [سياقات](/tag/سياقات) صارمة للميزانية، تم تطويرها بمساعدة LoRI لتصبح HELLoRI، التي تعمل على تجميد جزء من العمليات وتحسين [كفاءة](/tag/كفاءة) [التكيف](/tag/التكيف).
خلال ثلاثة [نماذج](/tag/نماذج) مختلفة من MoE، بما في ذلك OlMoE-1B-7B وMixtral-8x7B وDeepSeekMoE، أثبتت [HELLoRA](/tag/hellora) تفوقها على طرق [التحسين](/tag/التحسين) السابقة حيث حققت:
- تخفيضًا في المعلمات المدربة بنسبة 15.7% مقارنةً بـ [LoRA](/tag/lora).
- تقليلاً في FLOPs المضافة بنسبة 38.7%.
- زيادة في [سرعة](/tag/سرعة) التدرّب بمعدل 1.9 مرة.
- تحسنًا في [الدقة](/tag/الدقة) بنسبة 9.2%.
تُظهر هذه النتائج أن التركيز على أنماط التفعيل يمكن أن يكون مسارًا عمليًا وفعالًا لتحسين [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) (Language [Models](/tag/models)) [عبر](/tag/عبر) [نماذج](/tag/نماذج) المزيج من الخبراء.
ما رأيكم في هذه [التقنية](/tag/التقنية) الجديدة؟ هل تتوقعون أن تُحدث تحولًا حقيقيًا في كيفية [تحسين](/tag/تحسين) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي)؟ شاركونا آراءكم!
HELLoRA: تقنية رائدة لتحسين نماذج المزيج من الخبراء بكفاءة استثنائية!
تعرّف على HELLoRA، الأداة الجديدة التي تُحدث ثورة في تحسين نماذج المزيج من الخبراء (MoE). بفضل تركيزها على التكيف مع أنماط التفعيل، تحقق HELLoRA أداءً مدهشًا مع تقليل كبير في المعلمات المدربة!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
