في عالم الذكاء الاصطناعي، يعد [تقطير المعرفة](/tag/[تقطير](/tag/تقطير)-[المعرفة](/tag/المعرفة)) (Knowledge Distillation) أساسياً في عملية [تدريب](/tag/تدريب) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models))، إلا أن تصميمه لا يزال غير مفهوم بشكل كامل، خاصةً عندما يتعلق الأمر بالتعلم المعزز ([Reinforcement Learning](/tag/reinforcement-learning)). في [دراسة](/tag/دراسة) جديدة، توصل الباحثون إلى أن [النماذج](/tag/النماذج) السائدة، مثل [التقطير](/tag/التقطير) خارج السياسة (Off-Policy Distillation) والتقطير داخل السياسة ([On-Policy Distillation](/tag/on-policy-distillation))، ترتبط بشكل غير مباشر بخيارين مختلفين تماماً: مصدر البادئة (Prefix Source) واتجاه [KL](/tag/kl) على مستوى الرموز (Token-Level [KL](/tag/kl) Direction).

تناولت [الدراسة](/tag/الدراسة) [فحص](/tag/فحص) كلا الخيارين من خلال [تحليل](/tag/تحليل) مستوى التسلسل، حيث يقدم [KL](/tag/kl) الأمامي (Forward [KL](/tag/kl)) [مكافأة](/tag/مكافأة) تطابق (Cross-Entropy Matching) بين النموذج المعلم (Teacher) والنموذج المتعلم (Student)، بينما يوفر [KL](/tag/kl) العكسي (Reverse [KL](/tag/kl)) هدفاً لمعدل [سياسة](/tag/سياسة) (Policy-Gradient Objective) مع [مكافأة](/tag/مكافأة) تعتمد على نسبة اللوجاريتم بين النموذجين.

من خلال [فك](/tag/فك) الارتباط بين هذين المحورين، تم [اقتراح](/tag/اقتراح) أربعة أهداف صالحة، وأظهرت [الدراسة](/tag/الدراسة) التي أجريت حول [التفكير الرياضي](/tag/[التفكير](/tag/التفكير)-الرياضي) (Math Reasoning) أن هناك ثلاثة مقايضات رئيسية تنشأ: اتجاه [KL](/tag/kl) ينتج مقايضة بين [الدقة](/tag/الدقة) والانتروبيا (Entropy)، ومصدر البادئة يؤدي إلى مقايضة بين الجودة والاستهلاك، وطول [التدريب](/tag/التدريب) يؤثر على [الدقة](/tag/الدقة) والاستقرار.

استنادًا إلى النتائج، اقترح الباحثون مزيج [KL](/tag/kl) ([KL](/tag/kl) Mixing) وبرنامج دراسي مبوب حسب [الانتروبيا](/tag/الانتروبيا) (Entropy-Gated Length Curriculum) كوسائل لتحسين [الأداء](/tag/الأداء). نتائج هذه الحلول تشير إلى ضرورة وجود وزن كبير لـ [KL](/tag/kl) الأمامي لتجنب [فساد](/tag/فساد) [الانتروبيا](/tag/الانتروبيا) وزيادة الطول دون التأثير على [الدقة](/tag/الدقة). كما أن برنامج [الانتروبيا](/tag/الانتروبيا) المحوسب حسّن من نسب النجاح بمقدار 3.6 نقاط وارتفعت نسبة الاستجابة المخفضة بنسبة 3x مقارنة بالتدريب الثابت. هذه النتائج توفر إطار [عمل](/tag/عمل) وطرق عملية لمصممي أهداف [تقطير المعرفة](/tag/[تقطير](/tag/تقطير)-[المعرفة](/tag/المعرفة)) التي تراعي [الدقة](/tag/الدقة) والتنوع والكفاءة وسلوك [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز).