في عالم الذكاء الاصطناعي، يعد [تقطير المعرفة](/tag/[تقطير](/tag/تقطير)-[المعرفة](/tag/المعرفة)) (Knowledge Distillation) أساسياً في عملية [تدريب](/tag/تدريب) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models))، إلا أن تصميمه لا يزال غير مفهوم بشكل كامل، خاصةً عندما يتعلق الأمر بالتعلم المعزز ([Reinforcement Learning](/tag/reinforcement-learning)). في [دراسة](/tag/دراسة) جديدة، توصل الباحثون إلى أن [النماذج](/tag/النماذج) السائدة، مثل [التقطير](/tag/التقطير) خارج السياسة (Off-Policy Distillation) والتقطير داخل السياسة ([On-Policy Distillation](/tag/on-policy-distillation))، ترتبط بشكل غير مباشر بخيارين مختلفين تماماً: مصدر البادئة (Prefix Source) واتجاه [KL](/tag/kl) على مستوى الرموز (Token-Level [KL](/tag/kl) Direction).
تناولت [الدراسة](/tag/الدراسة) [فحص](/tag/فحص) كلا الخيارين من خلال [تحليل](/tag/تحليل) مستوى التسلسل، حيث يقدم [KL](/tag/kl) الأمامي (Forward [KL](/tag/kl)) [مكافأة](/tag/مكافأة) تطابق (Cross-Entropy Matching) بين النموذج المعلم (Teacher) والنموذج المتعلم (Student)، بينما يوفر [KL](/tag/kl) العكسي (Reverse [KL](/tag/kl)) هدفاً لمعدل [سياسة](/tag/سياسة) (Policy-Gradient Objective) مع [مكافأة](/tag/مكافأة) تعتمد على نسبة اللوجاريتم بين النموذجين.
من خلال [فك](/tag/فك) الارتباط بين هذين المحورين، تم [اقتراح](/tag/اقتراح) أربعة أهداف صالحة، وأظهرت [الدراسة](/tag/الدراسة) التي أجريت حول [التفكير الرياضي](/tag/[التفكير](/tag/التفكير)-الرياضي) (Math Reasoning) أن هناك ثلاثة مقايضات رئيسية تنشأ: اتجاه [KL](/tag/kl) ينتج مقايضة بين [الدقة](/tag/الدقة) والانتروبيا (Entropy)، ومصدر البادئة يؤدي إلى مقايضة بين الجودة والاستهلاك، وطول [التدريب](/tag/التدريب) يؤثر على [الدقة](/tag/الدقة) والاستقرار.
استنادًا إلى النتائج، اقترح الباحثون مزيج [KL](/tag/kl) ([KL](/tag/kl) Mixing) وبرنامج دراسي مبوب حسب [الانتروبيا](/tag/الانتروبيا) (Entropy-Gated Length Curriculum) كوسائل لتحسين [الأداء](/tag/الأداء). نتائج هذه الحلول تشير إلى ضرورة وجود وزن كبير لـ [KL](/tag/kl) الأمامي لتجنب [فساد](/tag/فساد) [الانتروبيا](/tag/الانتروبيا) وزيادة الطول دون التأثير على [الدقة](/tag/الدقة). كما أن برنامج [الانتروبيا](/tag/الانتروبيا) المحوسب حسّن من نسب النجاح بمقدار 3.6 نقاط وارتفعت نسبة الاستجابة المخفضة بنسبة 3x مقارنة بالتدريب الثابت. هذه النتائج توفر إطار [عمل](/tag/عمل) وطرق عملية لمصممي أهداف [تقطير المعرفة](/tag/[تقطير](/tag/تقطير)-[المعرفة](/tag/المعرفة)) التي تراعي [الدقة](/tag/الدقة) والتنوع والكفاءة وسلوك [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز).
فك الارتباط بين KL والمسارات: منظور موحد لتقطير نماذج اللغات الضخمة
يقدم البحث الجديد مفهوماً مبتكراً لفك الارتباط بين تقنيات تقطير المعرفة ونماذج التعلم المعزز. الاطلاع على نتائج هذه الدراسة سيفتح أمامكم آفاقاً جديدة في فهم تصميم نماذج الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
