في عالم الذكاء الاصطناعي، تمثل نماذج اللغات الكبيرة (Large Language Models - LLMs) أحد أهم التطورات الحديثة التي أثبتت قدرتها الفائقة في التعامل مع مجموعة واسعة من المهام اللغوية. ومع ذلك، يبقى التحدي الأكبر هو الاستهلاك الهائل للموارد خلال مراحل التدريب، مما قد يشكل عائقاً أمام اعتماد هذه التقنية بشكل واسع. هنا تظهر أهمية تقنية ELAS، التي تمثل اختصارًا لجملة "تدريب فعال لنماذج اللغة الكبيرة عبر تباين التفعيل 2:4".
تستفيد ELAS من فكرة التدريب منخفض الرتبة، التي حازت على اهتمام كبير في السنوات الأخيرة لتقليل استخدام الذاكرة. وتعتبر تطبيقات تباين 2:4 على الأوزان والتفعيلات خطوة واعدة، خاصةً مع دعم بطاقات NVIDIA لهذه الصيغة الهيكلية. ومع ذلك، كانت الطرق التقليدية للتدريب منخفض الرتبة تترك عادة مصفوفات التفعيل في حالة كاملة، مما يزيد من استهلاك الذاكرة ويحد من كفاءة التدريب.
تقنية ELAS تتجاوز هذه العوائق حيث تقترح إطار عمل مبتكر يقوم بتطبيق دالة تفعيل ReLU المربعة في الشبكات العصبية ذات الرتبة المنخفضة، بالإضافة إلى تنفيذ تباين 2:4 على التفعيلات بعد العملية. وقد أظهرت نتائج التجارب التي أجريت على نماذج LLaMA التي تتراوح بين 60 مليون إلى مليار معلمة، أن تقنية ELAS تحافظ على الأداء مع تدهور ضئيل جداً، في حين تحقق تسريعًا ملحوظًا في كل من التدريب والتنبؤ. كما أدت هذه التقنية إلى تقليل التحميل على الذاكرة، لا سيما مع أحجام الدفعات الكبيرة.
بالإضافة إلى ذلك، يمكن تحميل الكود اللازم لتجربة ELAS من [ELAS Repo]. إن مثل هذه الابتكارات تشير إلى اتجاه مثير في تطوير الذكاء الاصطناعي، فكيف سيؤثر ذلك على مستقبل نماذج اللغة؟ ما رأيكم في هذا التطور؟ شاركونا في التعليقات!
إليكم ELAS: الحل الثوري لتحسين تدريب نماذج اللغة الكبيرة بكفاءة مذهلة!
تقوم تقنية ELAS الجديدة بتعزيز أداء نماذج اللغة الكبيرة من خلال تطبيق تباين 2:4 على التفعيل، مما يقلل من استهلاك الذاكرة ويزيد من سرعة التدريب. نتائج مذهلة تؤكد قدرة هذه التقنية على تحقيق فعالية كبرى في استخدام الموارد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
