تلقى عالم الذكاء الاصطناعي (AI) دفعة قوية جديدة مع تقديم تقنية "التقطير المُحسن للمسارات" (Trajectory-Refined Distillation TRD)، التي تمثل خطوة متقدمة في معالجة المشكلات المرتبطة بالتعليم في نماذج اللغات الكبيرة (Large Language Models LLMs). تلعب عملية التعليم بعد الانتهاء من التدريب (On-policy Distillation OPD) دوراً حيوياً في توجيه الأداء، ولكنها تواجه مشكلة تُعرف بـ "فشل البادئة" (Prefix Failure).

يؤدي هذا الفشل إلى تدفق إشراف مزدوج من المعلم وإلى تفتيت التدرجات، مما يعيق كفاءة عملية التدريب. لذا، يأتي مفهوم التصحيح على مستوى المسار ليكون الأكثر فعالية، حيث يُحسن النموذج من مساراته التعليمية تحت إشراف المعلم في وقت واحد.

تمكن تقنية TRD النموذج من معالجة مشاكل البادئات قبل بدء عملية التقطير، مما يساعد على تقليل فشل البادئة من جذوره. إلى جانب ذلك، تُسهم TRD في تحسين استكشاف البيانات من خلال عرض مسارات بديلة صالحة للتلميذ حتى لو كانت لفات النموذج الأصلية صحيحة.

علاوة على ذلك، يمكن تطبيق TRD على نوع آخر من التعليم الذاتي الذي يعتمد على المشاركة في المعلومات (On-policy Self-Distillation OPSD)، معزِّزاً قدرة النموذج على التعامل مع المعلومات المتقدمة كمعلم.

أظهرت الأبحاث المتعلقة بتقنية TRD أنها تتفوق بشكل متسق على المقاييس السابقة، ما جعلها تعزز الدقة في المحاولات الفردية وتوسع نطاق التفكير المنطقي. كما يتوفر الكود الخاص بهذه التقنية للاطلاع عليه عبر github.

إذا كنت تميل إلى فضول اكتشاف آخر تقنيات الذكاء الاصطناعي، فما رأيك في نتائج هذه التقنية؟ شاركونا آراءكم في التعليقات!