🧠 نماذج لغوية2 دقائق للقراءة👁 0 مشاهدة

ثورة جديدة في خوارزميات التدريب: StoSignSGD يحل مشاكل SignSGD لرفع كفاءة نماذج اللغة العملاقة!

تمكن بحث حديث من تقديم خوارزمية StoSignSGD التي تعالج مشاكل عدم التوافق في خوارزمية SignSGD، مما يعزز من أداء نماذج اللغة الكبيرة. وتثبت التجارب أن StoSignSGD تتفوق على الأنظمة التقليدية بأداء متميز وسرعة لا مثيل لها.

في عالم الذكاء الاصطناعي، يظل تطوير خوارزميات التدريب هو محرك الابتكار والتقدم. ومن بين هذه الخوارزميات، برزت SignSGD كخيار مثير يدعو للاهتمام نتيجة لأدائها المتميز في التعلم الموزع وتدريب نماذج الأساس الكبيرة. ورغم تفوقها النسبي، إلا أن SignSGD تواجه تحديات كبيرة عند التعامل مع الإجراءات غير الملساء، الشائعة في مجالات التعلم الآلي الحديثة، مثل وظائف التنشيط ReLUs و max-pools.

لكن البحث الجديد الذي كشف عنه باحثون في دراسة بعنوان "ستوسينغ إس جي دي" (StoSignSGD) يفتح أفقًا جديدًا من خلال إدخال "الصدفة الهيكلية" (structural stochasticity) في مشغل الإشارة، مما يضمن خطوة تحديث غير متحيزة. ويسلط التحليل النظري الضوء على قدرة StoSignSGD في معالجة مشكلات عدم التوافق في SignSGD بشكل قاطع، مع تحقيق معدل تقارب حاد يتوافق مع الحدود الدنيا المتوقعة.

أظهرت التجارب العملية أن StoSignSGD تحقق استقرارًا مذهلاً وكفاءة تتجاوز الأنظمة التقليدية، حتى في ظروف التدريب ذات الدقة المنخفضة في FP8، حيث تفشل خوارزمية AdamW بشكل كارثي. فقد أظهرت هذه الخوارزمية الجديدة انخفاضًا قدره 1.44× إلى 2.14× في الوقت مقارنة بالأنظمة المعروفة.

علاوة على ذلك، عند استخدام StoSignSGD في تحسين نماذج اللغة الكبيرة التي تضم 7 مليارات من المتغيرات في مهام التفكير الرياضي، حصلنا على تحسينات كبيرة في الأداء مقارنة بـAdamW و SignSGD. من أجل فهم آليات النجاح هذه، تم تطوير إطار عمل تحويل الإشارة، والذي يمكنه تحويل أي مُحسِّن عام إلى نظيره القائم على الإشارة وغير المتحيز. ومن خلال دراسة انحلال شاملة، قمنا بتفكيك المكونات الأساسية لـStoSignSGD، لتقديم معلومات تجريبية توضح اختيارات تصميم خوارزميتنا.

إن هذا البحث لا يعزز فقط الفهم العميق لنجاح خوارزمية StoSignSGD، بل يفتح أيضاً آفاق جديدة للنقاش حول تحسينات التدريب في ميدان الذكاء الاصطناعي.

فما هي آراؤكم حول تطور StoSignSGD؟ هل تعتقدون أنه سيساهم في تعزيز فعالية نماذج اللغة العملاقة؟ شاركونا في التعليقات.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة