في عالم الذكاء الاصطناعي، تلعب عملية تحسين الشبكات العصبية دورًا حيويًا في زيادة كفاءة النماذج، وخصوصًا تلك المستخدمة في تطبيقات مثل نماذج Transformers. في هذا السياق، ظهر مؤخرًا محسن جديد يحمل اسم PowerStep. يجسد PowerStep نقلة نوعية في مجال تحسين الأداء، حيث يعمل على تقليل استهلاك الذاكرة بينما يبقي على كفاءة التشغيل.

استغلال فكرة الانحدار الأشد (Steepest Descent) تحت هندسة معيار (p-norm) هو ما يجعل PowerStep متميزًا. يوفر هذا المحسن تكيفًا في التحسين لكل إحداثية دون الحاجة للاحتفاظ بإحصائيات اللحظة الثانية، مما يؤدي إلى تقليل الأعباء على الذاكرة بشكل كبير.

أظهرت التجارب التي أجريت على نماذج Transformers ذات الحجم الكبير، والتي تتراوح من 124 مليون إلى 235 مليار باراميتر، أن PowerStep يحقق سرعة تقارب طريقة Adam التقليدية، ولكنه يستهلك ذاكرة أقل بنحو النصف. وعندما يتم دمجه مع تقنيات تقدير دقيقة مثل الكوانتيزات الثماني (int8)، فإنه يظل مستقرًا عدديًا ويخفّض استهلاك الذاكرة بنحو 8 مرات مقارنةً بالشكل الكامل لطريقة Adam.

يمثل PowerStep خيارًا مثاليًا للتدريب على نطاق واسع بفضل كفاءته العالية واستغلاله الأمثل للموارد. يُمكنك أيضًا الاطلاع على الكود الخاص به على GitHub للحصول على المزيد من التفاصيل وبدء تجربتك مع هذا المحسن الرائع.