إن تحديد معدل التعلم يمثل عنصراً أساسياً في عالم التعلم العميق، ولكنه قد يشكل تحدياً حقيقياً عند تطبيقه بشكل موحد عبر جميع الطبقات. قد تؤدي هذه الممارسة التقليدية إلى إغفال التباين الهيكلي للمعماريات مثل المحولات (Transformers)، مما يؤثر سلباً على كفاءة نماذج اللغة الضخمة (Large Language Models).
في دراسة حديثة، تم تقديم تقنية جديدة تُعرف بمعدل التعلم الطبقي (Layerwise Learning Rate - LLR)، وهي طريقة تكيفية تخصص معدلات تعلم مختلفة لكل طبقة من طبقات المحول. تستند هذه الطريقة إلى نظرية التنظيم الذاتي ذات الذيل الثقيل (Heavy-Tailed Self-Regularization - HT-SR)، التي تعزز التدريب من خلال تقييم الكثافة الطيفية التجريبية لمصفوفات الترابط الوزني.
يتم تخصيص معدلات تعلم أكبر لطبقات ذات ذيل ثقيل أضعف لتسريع عملية التدريب، بينما تحصل الطبقات ذات الذيل الثقيل الأقوى على معدلات تعلم أصغر. من خلال تكييف معدلات التعلم بهذه الطريقة، تشجع LLR على تدريب أكثر توازناً عبر الطبقات، مما يؤدي إلى تقارب أسرع وتحسين التعميم.
اختبارات شاملة على مجموعة متنوعة من المعماريات، مثل LLaMA و GPT-nano، واستخدام مُحسنات مثل AdamW و Muon، مع نماذج تتراوح من 60 مليون إلى 3 مليار معلمة، و100 مليار رمز تدريبي، تُظهر فعالية LLR. حيث تحقق LLR زيادة تصل إلى 1.5x في سرعة التدريب وتتفوق بشكل ثابت على خيارات معدلات التعلم الموحدة.
على وجه الخصوص، تحسن دقة التجربة الصفرية المتوسط لنماذج 1 مليار معلمة من 47.09% إلى 49.02%، بينما زادت لنماذج 3 مليار معلمة من 48.58% إلى 50.61%. واحدة من المزايا الرئيسية لـ LLR هي انخفاض تكلفة الضبط: يمكنها نقل إعدادات معدل التعلم المثلى تقريباً مباشرة من الأساس الموحد.
هل تعتقد أن هذه الطريقة ستغير مستقبل نماذج الذكاء الاصطناعي؟ شاركنا رأيك في التعليقات.
خطوات ثورية في التعليم الذاتي: معدل التعلم الطبقي المخصص للذكاء الاصطناعي!
تقرير جديد يكشف عن تقنية مبتكرة لتحسين أداء نماذج اللغة الضخمة (LLMs) عبر تخصيص معدلات تعلم فريدة لكل طبقة. هذه الطريقة تعد بتحسين سرعات التدريب بدقة وفعالية غير مسبوقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
