في ظل التسارع الذي تشهده تقنيات الذكاء الاصطناعي، برزت طرق مثيرة للاهتمام مثل التقطير الذاتي أثناء العمل (On-Policy Distillation - OPD) والتقطير الذاتي البسيط (On-Policy Self-Distillation - OPSD) كأدوات واعدة لتحسين أداء نماذج اللغة الكبيرة. تعتمد هذه الطرق على إشراف كثيف على مستوى التوكن (token) يمَكّن النماذج من التعلم من تجاربها الخاصة وإعادة ضبط استراتيجياتها.

لكن الأداء الفعلي لهذه الأساليب يبقى متبايناً. بينما أثبتت التقنيات فعاليتها في تحسين فهم النظام ومبادئ التعليم، إلا أن دراسات حديثة تحدثت عن عدم استقرار هذه الأساليب وتأثيرات سلبية.

من هنا، قامت دراستنا بتقديم فحص شامل لظروف نجاح وفشل OPD و OPSD، واكتشاف الأسباب وراء ذلك.

أظهرت النتائج أن OPD تظهر حساسية مرتفعة لاختيار المُعلم (teacher) وصياغة الخسارة، حيث يعتبر هذا الأمر حاسمًا في مهام مثل التفكير الرياضي. بينما فشل OPSD في الإعدادات التي تم اختبارها بسبب غياب معلومات خاصة بالاختبار، مما يؤثر سلبًا على أدائها.

ومع ذلك، تبين أن OPSD يمكن أن يكون فعالًا عندما تمثل المعلومات الخاصة قاعدة مشتركة، مثل تفضيل التنسيق أو نظام التعليم.

لقد حددنا ثلاثة آليات لفشل الأداء:
1. عدم تطابق التوزيع بين المُعلم والطالب بسبب اعتماد الطالب على بادئات متولدة الذات.
2. عدم الاستقرار في التحسين بسبب انحياز تدرجات TopK العكسية.
3. قيود خاصة بـ OPSD تجعل الطالب يتبنى سياسة بدون معلومات خاصة، وهي غير كافية عندما تكون المعلومات خاصة.

لكن، لدينا الحلول! تظهر استراتيجيات مثل أهداف TopK مع الوقف التدريجي، والمعلمين المعدلين بناءً على التفاعل القوي (RLVR)، والطلاب المستقرين تقنيًا (SFT) دورًا محوريًا في تقليل هذه العيوب.

بتطبيق هذه الحلول، يمكن للحقل تحقيق تقدم كبير في هذا المسار التحولي لنماذج الذكاء الاصطناعي، مما يفتح آفاقاً جديدة أمام الباحثين والمطورين. ما رأيكم في هذا التطور المثير؟ شاركونا في التعليقات.