تعتبر عملية تحسين الأداء عنصرًا محوريًا في تعلم الآلة، ولكن العديد من المحسنات التقليدية تعتمد على هياكل تحديث ثابتة يتم تحديدها مسبقًا، مما قد يؤدي إلى قيود في التجاوب مع تقلبات سلوك التدرجات عبر المناظر الخسارية. في خطوة مبتكرة، تم تقديم تقنية PILOT (Policy-Informed Learned OpTimizer)، وهي أداة تحسين ديناميكية تعتمد على تكييف سلوك التحديث أثناء التدريب.

يتجاوز PILOT الاعتماد على توازن ثابت بين الزخم (Momentum) والتطبيع (Normalization) والتحديثات القائمة على الإشارة، بدلاً من ذلك، يستخدم تقنية توافق اتجاه التدرج كإشارة لاستقرار التدريب المحلي. من خلال شرط تحديث القاعدة بناءً على هذه الإشارة، يمكن للمحسّن تعديل سلوكه عندما تصبح التدرجات مستقرة أو ضوضائية أو غير متسقة.

أظهرت التجارب على مجموعات بيانات FashionMNIST وCIFAR-10 أن PILOT يحقق باستمرار أعلى دقة بين المحسنات التي تم تقييمها، حيث وصل إلى 94.13% على FashionMNIST و81.94% على CIFAR-10 باستخدام بنية الشبكة العصبية التلافيفية (CNN). علاوة على ذلك، مع نموذج ResNet-18، تحسن الأداء ليصل إلى 95.71% على FashionMNIST و93.42% على CIFAR-10. تشير هذه النتائج إلى أن التعلم كيفية تكييف هيكل التحديث أثناء التدريب يمكن أن يحسن الأداء عبر النماذج التلافيفية، سواء كانت صغيرة أو عميقة، في حين يحافظ على إطار تحسين بسيط من الدرجة الأولى.

يمكن الوصول إلى تنفيذ PILOT بشكل علني عبر GitHub.