في عالم الذكاء الاصطناعي، تعتبر قوانين توسيع الشبكات العصبية (Neural Scaling Laws) من أهم المفاهيم التي تستخدم لفهم وتوقع أداء النماذج. ولكن، هل تعلم أن اختيار المُحسّن (Optimizer) الذي تستخدمه قد يلعب دوراً حاسماً في تحديد قيمة الأس المبين في هذه القوانين؟

في دراسة حديثة تم نشرها على arXiv، تم تقديم أدلة تشير إلى أن الأس exponent α في قوانين توسيع الشبكات العصبية ليس ثابتًا كما كان يُعتقد سابقًا، بل يعتمد بوضوح على نوع المُحسّن المُستخدم. من خلال إجراء تجارب على خمسة أنواع من المُحسّنات وخلال ستة ظروف طيفية، تم قياس قيمة α والتوصل إلى نتائج مثيرة.

تشير النتائج إلى أن المُحسّنات التي تم تجهيزها مسبقًا تؤدي إلى قيم أعلى من α مما يعد نعمة لتحسين الأداء، حيث تصل قيمة α إلى حوالي 0.31 عند استخدام خوارزمية التدرج الطبيعي المقاربة (Natural Gradient) مقارنة بـ 0.12 عند استخدام خوارزمية التدرج البسيط (Gradient Descent).

لكن هل هذا التحسن سيستمر عند التدريب على النماذج الكبيرة، حيث تشير الأدلة الحديثة إلى أن ميزة المُحسّن قد تتباطأ باعتماد قياس ضخامة النموذج؟ هذه القضايا لا تزال مفتوحة للنقاش وتحتاج إلى مزيد من البحث.

تظهر نتائج هذه الدراسة أهمية التقييم الدقيق لاختيارات المُحسّن عند التنبؤ بالأداء المستقبل للنماذج. كما أنها تقدم مقياسًا طيفيًا يمكن أن يساعد الباحثين في توقع متى ستتحقق فوائد استخدام المُحسّنات المتقدمة وأيها سيكون الأكثر ملاءمة لدعم تطور الذكاء الاصطناعي.