يعد التخفيف الذاتي (Self On-Policy Distillation) من أحدث الأساليب في مجال التعلم المعزز، حيث يتم تدريب سياسة الطالب بناءً على معلم يستمد قوته من تاريخ معاييره. ولكن ماذا عن الجدول الزمني لتحديث المعلم؟ هذا السؤال لم يُستكشف بشكل شامل كمتغير استقرار حتى الآن.
من خلال دراسة موسّعة لجداول تحديث المعلم باستخدام نموذج Qwen3-8B، تم تحديد أن فترات العزل، التي تُعرف بفترات تجميد المعلم بين التحديثات، هي الخاصية الهيكلية الأساسية التي تعزز التعلم المستقر، وليس عمر المعلم.
لكي نوضح ديناميات التدريب الأساسية، قدم الباحثون إطار عمل تشخيصياً يتضمن الهيكل الزمني لـ KL، وصدمات التحديث، ومخاطر الأطوال الطويلة. يكشف ذلك عن ظاهرة تُعرف بالانهيار غير المدرك للحالة (state-oblivious collapse): حيث تفشل الجداول الثابتة عند الأفق الزمني الطويل بشكل كارثي، وذلك لأن تحديث الوقت المدفوع يمكن أن ينقل الطالب المتغيّر إلى المعلم في خطوة واحدة لا رجعة فيها.
للتغلب على هذه العقبة، تم اقتراح استراتيجية جديدة تُسمى (Consolidation-Gated Teacher Refresh) أو CGTR، والتي تحافظ على فترات العزل بينما تعتمد كل تحديث على دلائل مشتركة من تحسين المكافآت والأمان في الأطوال الطويلة، مما يضمن أن كل حركة للمعلم تستجيب لتوطيد الطالب الحقيقي بدلاً من إشارة الوقت.
مع الحفاظ على مجموعة معلمات واحدة وعدم ضبطها لكل مجموعة بيانات، تحقق CGTR عدم الانهيار وتحصل على أفضل درجات نهائية في جميع المهام الأربعة (الكيمياء، الأحياء، الفيزياء، استخدام الأدوات)، مما يجعلها تعمل بشكل ذاتي لتنظيم تكرار التحديث وفقاً لديناميات التعلم لكل مهمة.
هل أنتم مستعدون لتبني أساليب جديدة في تعلم الآلة؟ شاركونا آراءكم في التعليقات!