في عالم تكنولوجيا الذكاء الاصطناعي، تلعب نماذج اللغة الكبيرة (Large Language Models) دوراً حيوياً في تعزيز قدرات الآلات على التفكير والتفاعل باللغة الطبيعية. لكن هناك تحدٍ كبير يكمن في كيفية تحسين عمليات التعلم لهذه النماذج. هنا تأتي فكرة "على أساس المسار التعليمي"، أو ما يُعرف بـ On-Policy Distillation (OPD)، التي تُستخدم لتدريب نموذج طلابي بناءً على مسارات مختارة من سياسة النموذج المعلم.

على الرغم من فعالية OPD، إلا أن تعلّمها يرتكز غالباً على مستوى الرموز (token-level)، مما يجعل من الصعب تصحيح انحرافات المنطق. خلُصت الأبحاث إلى أن حوالي 30% من الرموز ذات الخطأ المرتفع تقع في نطاق تناقض منخفض، مما يشير إلى أن العديد منها قد تكون مجرد اختلافات سطحية، وليس أخطاء منطقية حقيقية.

لذا، اقترح الباحثون تقنية جديدة تُعرف باسم Trajectory-aware OPD (TOPD)، التي تستفيد من المعلومات حول المسارات المستقبلية القريبة لتحديد الحالات التي تتطلب توجيهًا حقيقياً، وتوزيع الإرشادات على عدة رموز مستقبلية. تُظهر التجارب أن هذا النهج لا يُحسن فقط من دقة نماذج OPD، إذ ارتفعت دقتها من 47.8% إلى 48.2%، بل حققت TOPD زيادة مُذهلة في الأداء حيث وصلت الدقة إلى 52.2% وحققنا تحسينات ملحوظة في المهام المختلفة.

إن هذه النتائج تُظهر أنه عبر استخدام التقنيات المتقدمة التي تأخذ بعين الاعتبار المعلومات المستقبلية، يمكننا تحسين أداء نماذج الذكاء الاصطناعي بشكل كبير، مما يمهد الطريق لتطورات جديدة في هذا المجال.