في عالم الذكاء الاصطناعي، تُعتبر تقنيات تنقيح السياسات (On-Policy Distillation) واحدة من الأدوات الأساسية المستخدمة لتحسين نماذج اللغة الضخمة (Large Language Models) بعد التدريب. تعتمد هذه التقنية على نموذج المعلم لتوفير إشراف كثيف على النماذج الطلابية.

إلا أن التطبيق القياسي لهذه التقنية قد يظهر بعض المشاكل، حيث يتم تقليل مطابقة التوزيعات إلى نسبة لوغاريتمية لأخذ عينات من الرموز، مما يجعل الإشارة التعليمية ضعيفة عند أطوال السلاسل الطويلة، خاصة عندما تنحرف المقدمات بعيدًا عن الدعم العادي لنموذج المعلم.

تقدم هذه الدراسة رؤى جديدة من زوايا نظر نظرية وتنفيذية، حيث تكشف التحليلات أن تنقيح السياسات على مستوى الرموز يتعرض للتحيز مقارنةً بتقليل الانحدار العكسي عند مستوى التسلسلات، ولكنه في المقابل يوفر حدًا أقل لتنوع حالات الأسوأ.

تُظهر دراسة مسيطرة مصممة خصيصًا أن الربط بين المكافآت المستقبلية الأقوى يزيد من تباين التدرجات ويزعزع استقرار التدريب. من الناحية التجريبية، تم تحديد ثلاثة أوضاع فشل رئيسية لتقنيات تنقيح السياسات المبنية على أخذ عينات من الرموز: عدم توازن الإشراف على مستوى الرموز، عدم موثوقية إرشادات المعلم فيما يتعلق بمقدمات الطلاب، وعدم تطابق الرموز أو الرموز الخاصة.

استنادًا إلى هذه النتائج، يتم اقتراح أسلوب جديد يعتمد على مطابقة الدعم المحلي من المعلم على أضعاف أعلى، وهدف الانحدار العكسي المقصود الذي يقارن توزيعات المعلم والطالب عبر مجموعة رموز مدعومة من قبل المعلم عند كل مقدمة، بالإضافة إلى أخذ عينات من السلاسل العليا وتعتيم الرموز الخاصة.

عبر اختبارات متعددة تتراوح بين التفكير الفردي ومتعدد المهام، أظهر هذا الهدف تحسنًا في استقرار التحسين وزيادة الأداء بنسبة 19.8٪ مقارنةً بطرق تنقيح السياسات القياسية. يعد هذا الدليل خطوة عملية نحو تنقيح السياسات الأكثر استقرارًا وفعالية في نماذج الذكاء الاصطناعي.