في عصر النماذج اللغوية الضخمة (Large Language Models)، يتزايد الاهتمام بكيفية تحسين عملية التعلم والتدريب هذه النماذج. رغم أن العديد من هذه النماذج يتم تدريبها بعد ذلك باستخدام مكافآت نادرة تشير فقط إلى ما إذا كانت النتائج قد نجحت، إلا أنها تعطي توجيهًا محدودًا بشأن نقاط القوة والضعف في عملية التفكير. هنا يأتي دور تقنية جديدة تُعرف بالتقطير على السياسة المتعددة (Multi-Rollout On-Policy Distillation - MOPD).

تعمل MOPD على تقديم إشراف أكثر كثافة على مستوى الرموز من خلال تدريب الطلاب على مسارات تم إنشاؤها من قبلهم، لكن الأساليب التقليدية غالبًا ما تعالج كل محاولة بشكل مستقل دون الأخذ في الاعتبار الجهود الأخرى المرتبطة بنفس الطلب. بفضل MOPD، يتم استخدام إطار عمل يعتمد على زملاء الطلاب، مما يوفر إشارات تعليمية أكثر فائدة.

تستفيد تلك التقنية الجديدة من كلاً من نجاحات وإخفاقات الأقران: حيث تقدم النجاحات دلائل إيجابية على أنماط التفكير الصحيحة، بينما توفر الإخفاقات أدلة سلبية منظمة حول الأخطاء المحتملة التي ينبغي تجنبها.

خلال التجارب التي شملت مجالات برمجة المنافسة، التفكير الرياضي، الإجابة عن الأسئلة العلمية، واستخدام الأدوات، أظهرت MOPD تحسنًا ملحوظًا مقارنة بالتقنيات التقليدية. كما أظهرت التحليلات الإضافية لإشارات المعلم أن السياقات المختلطة من النجاح والإخفاق تساعد على تحسين توافق درجات المعلم مع مكافآت المحقق، مما يشير إلى أن هذه التحسينات تنشأ من إشراف أكثر دقة وتكيفًا مع الحالة.

هذه النتائج تشير بوضوح إلى أن استخلاص الدروس من محاولات متعددة يجب أن يُعَامَل بجدية، وأن تكرار المحاولات لا ينبغي أن يُعتبر مجرد عينات معزولة. الأمر الذي يفتح آفاقًا جديدة في كيفية تصميم نماذج الذكاء الاصطناعي الأكثر فعالية.