تواجه تقنيات التعلم المعزز (Reinforcement Learning) تحديات كبيرة عند استخدامها في توليد النصوص الطويلة والمفتوحة، نتيجةً لعدم توفر إجابات مرجعية موثوقة ومقاييس آلية دقيقة. تعتمد العديد من الطرق الحالية على تسجيلات نماذج اللغات الكبيرة (Large Language Models) كقضاة، مما يؤدي إلى صعوبة في ضبط الدرجات المطلقة عبر الاستجابات المعقدة. في هذا السياق، تم تطوير نظام Tournament-GRPO، وهو إطار مكافآت يرتكز على المجموعات، والذي يحول أحكام النماذج اللغوية المدعومة بقوائم من المعايير إلى مكافآت نسبية من خلال تنظيم بطولات متعددة الجولات.
يعتمد Tournament-GRPO على مقارنة المرشحين ضمن مجموعات، وتراكم نتائج البطولات، وتحويلها إلى مكافآت خاصة بالمجموعة تُستخدم في تدريب GRPO. أظهرت التجارب التي أجريت على Deep Research Bench أن Tournament-GRPO يتفوق باستمرار على الأساليب التقليدية في تصميم المكافآت، محققًا تحسينًا قدره 4.52 نقطة على أعلى تصنيف موجود.
بالإضافة إلى ذلك، كشفت التحليلات أن مكافآت البطولة تقدم توازنًا مواتيًا بين الفعالية والكفاءة، وأن تصميم البطولة يؤثر على ديناميات التدريب. هذه النتائج تشير إلى أن المقارنة المدعومة بالقوائم توفر إشارة مكافأة فعالة لتطبيق التعلم المعزز في توليد النصوص الطويلة المفتوحة.