في مجال الذكاء الاصطناعي، تواصل نماذج اللغات الضخمة (Large Language Models) تحقيق إنجازات غير مسبوقة، وآخرها تقنية تحسين الوزن الذاتي (Self-Distillation Policy Optimization - SDPO) التي توفر تعيين ائتماني دقيق عند مستويات الدالة للذكاء الاصطناعي من خلال استغلال توقعات النموذج الناتجة عن تغذيته الذاتية.

هذا الأسلوب يعد نقطة تحول هامة، حيث يمكنه تركيز التعلم على مجموعة من الأسئلة المتوسطة الصعوبة، مما يعزز قدرة النموذج على التعامل مع تحديات معقدة. ومع ذلك، كشف التحليل أن SDPO، على عكس التحسين الذاتي التقليدي، لا يمتلك وعيًا ضمنيًا بالصعوبة، وهو ما يعكس حاجة لأسلوب أكثر دقة.

من خلال تحليل الفجوة هذه، قمنا بتوسيع إطار التعلم ليشمل المكافآت العادية، حيث أظهرت النتائج أن العادي يمتص عامل التباين، مما يجعل تجربة التعلم أكثر اتساقًا.

علاوة على ذلك، أتاح هذا التحليل اقتراح حلاً بسيطًا: وزن فقدان SDPO لكل سؤال بناءً على معايير محددة، مما أدى إلى تطوير SC-SDPO، وهو إصدار متوازن من SDPO الذي يمكن أن يحقق أداءً أفضل.

تظهر التجارب على مقاييس التفكير العلمي واستخدام الأدوات أن SC-SDPO يحقق تحسنات ملحوظة على النسخة السابقة، حيث يسجل فوائد تفوق الـ 3% في مجموعة متنوعة من القياسات، مع الحفاظ على ديناميات تدريب مستقرة خلال عملية التحسين.

إن هذا التطور يمثل خطوة كبيرة نحو تعزيز أداء نماذج اللغات الضخمة، مما يفتح آفاقاً واسعة أمام استخدام الذكاء الاصطناعي في مجالات متعددة من الحياة اليومية.