في الآونة الأخيرة، أظهرت الدراسات أن التقنيات القائمة على الاستخراج المباشر (On-Policy Distillation) قادرة على دمج السياقات الخاصة مثل الموجهات والنصائح التنفيذية في نموذج الطالب، مما يعني أنه لم يعد من الضروري الاعتماد على هذه السياقات في وقت الاستدلال. ورغم أن هذه الطريقة حققت تحسناً كبيراً في أداء النموذج دون اعتماد على السياق، إلا أننا اكتشفنا ظاهرة جديدة ومثيرة للفضول.

تتمثل هذه الظاهرة في أن إعادة إدخال السياق الأصلي إلى النموذج المنقى قد تؤدي في الواقع إلى تدهور في الأداء، حتى في الحالات التي كان الأداء فيها جيداً دون الحاجة إلى السياق. أطلقنا على هذه الظاهرة "تدهور السياق المستحدث" (context-induced degradation). ونرى أن نجاح عملية دمج السياق يتطلب ليس فقط محاكاة سلوك المعلم المشروط بالسياق، ولكن أيضاً الحفاظ على الاستقرار عند إعادة إدخال السياق، وهي خاصية نطلق عليها "قابلية الإزالة السياقية" (context removability).

استجابة لهذه الملاحظة، اقترحنا استخدام "منظم اتساق خفيف الوزن" يثبت إخراج الطالب بدون سياق باستخدام تقنيات مثل توقف التدرج (stop-gradient)، ثم يعاقب في حالة الانحراف عن الإخراج المعتمد على السياق باستخدام تباين KL (KL divergence).

هذه الإضافة البسيطة تتطلب تمريرة إضافية واحدة فقط خلال كل خطوة تدريب، لكنها تخفف بشكل فعال من تدهور الأداء الذي تسببه السياقات، وعادة ما تحسن الأداء دون سياق. عبر 12 إعداداً تتضمن مجالات ونماذج متنوعة، أظهر أسلوبنا تحسيناً في دقة الأداء المعتمدة على السياق في معظم الإعدادات، وأدخل تحسينات في 11 من 12 إعدادًا، وقام بإزالة تضخم طول الاستجابة بشكل فعّال.

وفي دراسة آلية مُفصَّلة، تأكدنا من تحقيق قابلية الإزالة السياقية على مستوى التمثيل، حيث تبقى الحالة المخفية متطابقة تقريباً بغض النظر عما إذا كان السياق موجوداً أم لا.

هل تجد أن تحسين الاستقرار عند إعادة تقديم السياق سيكون له تأثير كبير في نماذج التعلم العميق المقبلة؟ شاركونا آرائكم في التعليقات!