في عالم الذكاء الاصطناعي الحديث، تُعتبر نماذج الخبراء (Mixture-of-Experts) من الأدوات الرائدة التي تُستخدم لتسهيل العمليات المعقدة وتدريب نماذج بحجم تريليون معلمة. وقد نجحت دراسة جديدة في تقديم مجموعة من الاستراتيجيات لتدريب هذه النماذج بكفاءة عالية في الذاكرة.
يتبنى هذا الأسلوب الجديد مزيجًا من تقنيات التوازي العديدة الموجودة والجديدة، مما يساعد في تعزيز مختلف مراحل تدريب نماذج الخبراء. بحسب الورقة البحثية التي تم رفعها على منصة arXiv، فإن هذا النظام الجديد يركز على تحقيق الكفاءة القصوى رغم القيود الفيزيائية للموارد مثل معالجات CPU و GPU، وذاكرة HBM، بالإضافة إلى عرض النطاق الترددي للتواصل بين الموارد.
واحدة من الاستراتيجيات الجديدة التي تم تقديمها تتضمن تحسين الخطوات الخاصة بالمنظومات، مما يمكن محترفي الذكاء الاصطناعي من استكمال عمليات ما قبل التدريب والتعديل الفائق في نماذج ضخمة باستخدام أقل عدد ممكن من نوى GPU.
مع النتائج التي قدمها الباحثون، كان النموذج الجديد MoP أكثر فعالية بحوالي 4.7x--8.2x من نموذج الـ FSDP2 المعتمد، حيث بدأ الفجوة في الاتساع مع زيادة الحجم، مما يفتح آفاق جديدة للمهتمين بتدريب النماذج الكبيرة بكفاءة.
إن هذا الابتكار يحمل آمالا ضخمة في مجالات التعلم العميق، حيث يسمح بالمزيد من الاستفادة من المعايير العالية دون الاستغناء عن الأداء، ويُعد خطوة جديدة نحو المستقبل المشرق للذكاء الاصطناعي.
ثورة في تدريب نماذج الخبراء: كيف توظف تقنيات متعددة لتحقيق كفاءة عالية في الذاكرة؟
تستعرض الورقة العلمية استراتيجيات جديدة لتدريب نماذج الخبراء (Mixture-of-Experts) بكفاءة عالية في الذاكرة. يمكن لهذه التقنيات تحقيق مستويات غير مسبوقة من الأداء في معالجة النماذج الضخمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
