في عالم الذكاء الاصطناعي، يعتبر معدل التعلم (Learning Rate) أحد العوامل الأساسية في تدريب النماذج. لقد شهد معدل التعلم تطورًا كبيرًا، حيث انتقل من طريقة بسيطة تعتمد على معدل ثابت إلى استراتيجيات متطورة تتكيف مع خصائص كل طبقة من الشبكات العصبية. في ورقة جديدة على منصّة arXiv، تم تقديم إطار شامل يسلط الضوء على خمس أجيال من استراتيجيات معدل التعلم، وهي:

1. **الجيل الأول**: معدلات تعلم ثابتة عالمية.
2. **الجيل الثاني**: جدولة عالمية لمعدل التعلم.
3. **الجيل الثالث**: تكيف على مستوى المعلمات.
4. **الجيل الرابع**: تمييز على مستوى الطبقات.
5. **الجيل الخامس**: جدولة مشتركة للطبقات والوقت.

تتبع الدراسة كيفية انتقال هذه الاستراتيجيات من الأعلى إلى الأسفل، حيث يصبح من الضروري معالجة التحديات المرتبطة بالتعلم الانتقالي. فبينما تحتاج الطبقات السفلى إلى تحديثات صغيرة للحفاظ على المعرفة العامة، تتطلب الطبقات العليا تحديثات كبيرة للتكيف مع المهام الجديدة.

بناءً على هذا التصنيف، وقدّم الباحثون نموذج **Discriminative Adaptive Layer Scaling (DALS)**، وهو إطار موحد يجمع بين عدة استراتيجيات متطورة، مثل جدولة الكوزين المدروسة (phase-adaptive cosine scheduling) وتصفية التدرجات المتعمقة (depth-aware Grokfast gradient filtering).

عند اختبار 18 استراتيجيات بما في ذلك 3 نسخ من DALS عبر خمسة مجموعات بيانات مختلفة، أظهرت النتائج أن DALS يحقق أعلى دقة تصل إلى 98% على البيانات الاصطناعية، بينما يتمكن DALS-Fast من الوصول إلى 90% في مجرد 3 دورات تدريبية فقط.

ومع مقارنة الأداء بين مجموعات البيانات، تبين وجود أنماط مثيرة تعتمد على النظام - حيث لا تحقق أي استراتيجية الفوز في جميع الأوضاع. الأهم من ذلك، أن STLR+Discriminative، الذي يعتبر رائد في السياقات الأخرى، فشل بشكل مدمر في المهام من الصفر (43.6% على TREC-6 من البداية مقارنة بـ 96.8% باستخدام RAdam)، مما يؤكد أن الانحدار الاتجاهي يمكن أن يكون ضارًا دون ميزات مسبقة.

إجمالاً، يوفر نموذج DALS نتائج ممتازة مع الحفاظ على الأداء التنافسي في التكييف، مما يمهد الطريق لأبحاث المستقبل في هذا المجال الحيوي.