في عالم التعلم الآلي، يُعتبر التعلم بالاستنساخ (Imitation Learning) إطارًا طبيعيًا لتعلم الأنظمة التي تتخذ قرارات متسلسلة. هذا المجال قد تطوّر ليصبح النموذج السائد لفهم تدريب نماذج اللغات. ولكن، ثمة لغز مركزي يتطلب التفكر: بينما في النظرية يمكن أن يكون التعلم غير المتصل (offline) خاليًا من الأفق ومثاليًا، تبين أن الطرق المتصلة (online) مثل التقطير على أساس الويب (On-Policy Distillation) تتفوق في الممارسة العملية على طرق مثل التوجيه المُشرف (Supervised Fine-Tuning).

لإلقاء الضوء على هذه الفجوة، اقترحنا نموذج خبير مزعج يمكّن المتعلم من الوصول فقط إلى نسخة مزعجة من سياسة الخبير، مع السعي للتنافس ضد المكافأة المحققة من خبير واضح. في التطبيقات الحديثة، مثل تدريب نماذج اللغات على إجراء سلاسل تفكير طويلة، غالبًا ما يكون الخبير غير مثالي. يظهر تحليلنا تباينًا حادًا بين التعلم غير المتصل (offline) والتعلم المتصل (online): حيث أن التعلم من مسارات مزعجة يكون في جوهره صعبًا، فإن تعقيد العينة يجب أن ينمو بشكل أسي.

في المقابل، نثبت أن التفاعل عبر شبكة الويب مع الخبير المزعج من خلال متغير مبتكر من التقطير على أساس الويب يُمكن أن يمكّن من اعتماد كثير على الأفق بشكل متعدد الحدود. نقدّم أيضًا دالة خسارة بديلة تُعتبر شائعة في تدريب نماذج اللغات، ونوفر خوارزميات وقيود دنيا، ونوسّع نتائجنا إلى سياق أكثر واقعية عندما يكون الخبير النظيف حتميًا، مما يوضح الأساس النظري لفوز التقطير على أساس الويب على التوجيه المُشرف عند تدريب نماذج لغات من معلمين غير مثاليين.