في عالم الذكاء الاصطناعي، يمثل الوكلاء متعدد الدوران (Multi-turn Agents) قفزة نوعية في القدرة على التعامل مع المهام المعقدة، لكن تعتمد قدراتهم عمومًا على نماذج ضخمة يتجاوز تكلفتها العملية. هنا يأتي دور تقنية التحويل التعليمي على السياسة (On-Policy Distillation - OPD) التي تعد أسلوبًا طبيعيًا لنقل هذه القدرات إلى نماذج أصغر.

ومع ذلك، تواجه هذه التقنية تحديًا لذا، وهي أن أخطاء النماذج الصغيرة تتراكم عبر الأدوار وتؤدي إلى انحراف المسار عن توزيع حالات المعلم المألوف، مما يجعل إشراف المعلم أقل موثوقية في اللحظات التي يحتاج إليها الطالب أكثر من غيرها.

لذا، نقترح تقنية Guided On-Policy Distillation (Guided-OPD) التي تُعد خوارزمية بسيطة لكنها فعالة. من خلال دمج الأدوار المولدة من المعلم والطالب ضمن كل عمليات التشغيل، تتمكن الخوارزمية من ضبط احتمالية تدخل المعلم وفق منهج دراسي يتناقص ليصل إلى الصفر تدريجيًا. هذا التوجيه القوي يُبقي المسارات المبكرة قريبة من توزيع المعلم قبل أن يتم سحب هذا التوجيه تدريجيًا لاستعادة نظام العمل المبني على السياسة.

عند تطبيق Guided-OPD على بيئات ALFWorld وScienceWorld وWebShop، أظهر الوكلاء المشتقون من نموذج Qwen3-30B-A3B المعلم تحسنًا في الدرجات بلغ 21.1% ومعدل نجاح بلغ 25.5% مقارنة بـ OPD العادي، مع تحقيق زيادة أكبر في النماذج الأصغر.

تظهر هذه النتائج المدهشة الإمكانيات الكبيرة للذكاء الاصطناعي وكيف يمكن لتوجيه المعلم تعزيز الأداء في بيئات العمل المعقدة.