في عالم الذكاء الاصطناعي، تُعتبر تقنية "تقطير المعرفة" (Knowledge Distillation) حجر الزاوية في تحسين نماذج اللغة الكبيرة (Large Language Models). ومع ذلك، فقد أظهرت الطرق التقليدية التي تعتمد على هدف KL واحد ضعفًا في الحفاظ على التوازن بين فهم التوزيع الأساسي وبين نماذج التوزيع النادرة، مما يؤثر سلبًا على جودة التوليد والعمومية.

لذلك، قام الباحثون بتحليل الأدوار التكميلية لتباعد KL الأمامي (Forward KL Divergence) وتباعد KL العكسي (Reverse KL Divergence) من وجهتي نظر نظرية وتجريبية. ونتيجة لذلك، تم اقتراح إطار عمل جديد يعتمد على التعلم المعزز لتقطير KL، يقوم فيه شبكة السياسة (Policy Network) بتخصيص أوزان ديناميكية تشمل تباعد FKL وRKL بناءً على الخصائص التوزيعية للمعلم والطالب، معززة بإشارات مكافأة فورية.

تظهر التجارب الواسعة تحسنًا مستمرًا في الأداء مُقاسًا بمؤشر Rouge-L وBertScore، حيث تجاوزت النتائج الأنظمة التقليدية بـ 0.4-0.6 نقطة. هذه التطورات تدل على فاعلية تقنية ARKD الجديدة التي قد تحدث تحولًا في كيفية معالجة النماذج اللغوية لتوليد النصوص، مما يُعد إنجازًا جديدًا في رحلة الذكاء الاصطناعي.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات!