في عالم الذكاء الاصطناعي، أصبح التعلم المعزز (Reinforcement Learning) المُستخدم لتحسين نماذج اللغات الضخمة (Large Language Models) في مجال توليد الأكواد شائعًا بشكل متزايد. تستند هذه الطريقة بشكل أساسي إلى ملاحظات من وحدات الاختبار، حيث يتم اتباع تفاعل المكافآت والبناء على الأخطاء. ولكن، هل تساءلتم يومًا عن فعالية هذه الطريقة؟

تمثل مكافأة "اجتياز جميع الاختبارات" تحديًا، حيث إنها قد تؤدي إلى قلة إشارات التعلم عندما تتعامل مع حالات صعبة لا تنجح فيها أي من الحلول المُختبرة. في هذا السياق، تم اقتراح استخدام معدل اجتياز الاختبارات كمكافأة بديلة.

في الدراسة الأخيرة، تم فحص مكافآت معدل النجاح في التعلم المعزز دون وجود مُقيّم (critic-free RL) لتوليد الأكواد، مثل GRPO و RLOO. وقد تم ملاحظة نمط ثابت عبر النماذج الأساسية والخوارزميات: على الرغم من تقليل انعدام المكافآت، إلا أن مكافآت معدل النجاح لا تؤدي بشكل موثوق إلى تحسين الأداء النهائي بالمقارنة مع المكافآت الثنائية خلال التجارب المتحكم بها بشكل صارم.

لكن لماذا تحدث هذه المفارقة؟

قام الباحثون بتحليل كثافة المكافآت والاتجاهات الناتجة عن التدرجات. وقد وُجد أن مكافآت معدل النجاح أكثر كثافة، لكن التحديثات الناتجة عن التدرجات لا تدفع بشكل مستمر الكتلة الاحتمالية نحو الحلول الكاملة الناجحة. يظهر أن معدل اجتياز الاختبارات يعتبر بديلًا غير مضبوط للانتقال نحو الصحة الكاملة، حيث أن الحلول الجزئية التي تنتمي لنفس المجموعة قد تتسبب في اتجاهات تدرج متضاربة تلغي بعضها البعض.

تُشير النتائج العامة إلى أن مكافآت معدل النجاح في التعلم المعزز دون مُقيّم غير كافية لتحسين توليد الأكواد، مما يتطلب تصاميم مكافآت أفضل تتماشى مع هدف الصحة الكاملة. هل أنتم مستعدون لاستكشاف تصاميم جديدة في مكافآت التعلم المعزز؟ ما رأيكم في هذه التطورات؟ شاركونا في التعليقات!