أصبح التعلم المعزز (Reinforcement Learning) جزءًا أساسيًا من عملية تحسين نماذج اللغات الضخمة (Large Language Models) حيث تسيطر خوارزمية تحسين السياسة القريبة (Proximal Policy Optimization - PPO) على المشهد. ومع ذلك، تدور النقاشات بين الباحثين حول ما إذا كانت الآلية المركزية لنسبة القص (ratio clipping) في PPO ملائمة لأساليب تعلم اللغات الكبيرة. حيث يقيد PPO تحديثات السياسات بناءً على نسبة احتمالية الرموز المُختارة، مما يؤدي إلى تقدير غير دقيق للتباين الحقيقي للسياسة.

وهذا الأمر يؤدي إلى ديناميكيات تعلّم غير مثالية، حيث يتم فرض عقوبات مبالغ فيها على الرموز ذات الاحتمالات المنخفضة، في حين تُهمل التغييرات الكبيرة في الرموز ذات الاحتمالات العالية، مما ينتج عنه عدم كفاءة وعدم استقرار خلال التدريب.

لذا، يقدم الباحثون طريقة جديدة تسمى Divergence Proximal Policy Optimization (DPPO) التي تستبدل آلية القص الاستدلالي بقيود أكثر منهجية تعتمد على تقدير مباشر لتباين السياسة (مثل تباين المجموع الكلي أو KL).

لتفادي استخدام ذاكرة كبيرة، تم تقديم تقريب ثنائي وTop-K لالتقاط التباين الأساسي مع تحمل ضئيل. أظهرت التقييمات التجريبية الواسعة أن DPPO يحقق استقرارًا وكفاءة أعلى في التدريب مقارنةً بالطرق الحالية، مما يوفر أساسًا أكثر قوة لتحسين نماذج اللغات الضخمة بناءً على التعلم المعزز. يمكنكم الاطلاع على الشيفرة المصدرية لهذه الأبحاث عبر الرابط: https://github.com/sail-sg/Stable-RL.

ما رأيكم في هذا التطور الجديد؟ هل تعتقدون أن هذه الطريقة ستحدث فرقًا في تحسين نماذج الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!