في عالم الذكاء الاصطناعي، يعد تقطير المعرفة (Knowledge Distillation) أساسياً في عملية تدريب نماذج اللغات الضخمة (Large Language Models)، إلا أن تصميمه لا يزال غير مفهوم بشكل كامل، خاصةً عندما يتعلق الأمر بالتعلم المعزز (Reinforcement Learning). في دراسة جديدة، توصل الباحثون إلى أن النماذج السائدة، مثل التقطير خارج السياسة (Off-Policy Distillation) والتقطير داخل السياسة (On-Policy Distillation)، ترتبط بشكل غير مباشر بخيارين مختلفين تماماً: مصدر البادئة (Prefix Source) واتجاه KL على مستوى الرموز (Token-Level KL Direction).

تناولت الدراسة فحص كلا الخيارين من خلال تحليل مستوى التسلسل، حيث يقدم KL الأمامي (Forward KL) مكافأة تطابق (Cross-Entropy Matching) بين النموذج المعلم (Teacher) والنموذج المتعلم (Student)، بينما يوفر KL العكسي (Reverse KL) هدفاً لمعدل سياسة (Policy-Gradient Objective) مع مكافأة تعتمد على نسبة اللوجاريتم بين النموذجين.

من خلال فك الارتباط بين هذين المحورين، تم اقتراح أربعة أهداف صالحة، وأظهرت الدراسة التي أجريت حول التفكير الرياضي (Math Reasoning) أن هناك ثلاثة مقايضات رئيسية تنشأ: اتجاه KL ينتج مقايضة بين الدقة والانتروبيا (Entropy)، ومصدر البادئة يؤدي إلى مقايضة بين الجودة والاستهلاك، وطول التدريب يؤثر على الدقة والاستقرار.

استنادًا إلى النتائج، اقترح الباحثون مزيج KL (KL Mixing) وبرنامج دراسي مبوب حسب الانتروبيا (Entropy-Gated Length Curriculum) كوسائل لتحسين الأداء. نتائج هذه الحلول تشير إلى ضرورة وجود وزن كبير لـ KL الأمامي لتجنب فساد الانتروبيا وزيادة الطول دون التأثير على الدقة. كما أن برنامج الانتروبيا المحوسب حسّن من نسب النجاح بمقدار 3.6 نقاط وارتفعت نسبة الاستجابة المخفضة بنسبة 3x مقارنة بالتدريب الثابت. هذه النتائج توفر إطار عمل وطرق عملية لمصممي أهداف تقطير المعرفة التي تراعي الدقة والتنوع والكفاءة وسلوك التعلم المعزز.