تواجه تقنيات التعلم المعزز (Reinforcement Learning) تحديات كبيرة عند استخدامها في توليد النصوص الطويلة والمفتوحة، نتيجةً لعدم توفر إجابات مرجعية موثوقة ومقاييس آلية دقيقة. تعتمد العديد من الطرق الحالية على تسجيلات نماذج اللغات الكبيرة (Large Language Models) كقضاة، مما يؤدي إلى صعوبة في ضبط الدرجات المطلقة عبر الاستجابات المعقدة. في هذا السياق، تم تطوير نظام Tournament-GRPO، وهو إطار مكافآت يرتكز على المجموعات، والذي يحول أحكام النماذج اللغوية المدعومة بقوائم من المعايير إلى مكافآت نسبية من خلال تنظيم بطولات متعددة الجولات.
يعتمد Tournament-GRPO على مقارنة المرشحين ضمن مجموعات، وتراكم نتائج البطولات، وتحويلها إلى مكافآت خاصة بالمجموعة تُستخدم في تدريب GRPO. أظهرت التجارب التي أجريت على Deep Research Bench أن Tournament-GRPO يتفوق باستمرار على الأساليب التقليدية في تصميم المكافآت، محققًا تحسينًا قدره 4.52 نقطة على أعلى تصنيف موجود.
بالإضافة إلى ذلك، كشفت التحليلات أن مكافآت البطولة تقدم توازنًا مواتيًا بين الفعالية والكفاءة، وأن تصميم البطولة يؤثر على ديناميات التدريب. هذه النتائج تشير إلى أن المقارنة المدعومة بالقوائم توفر إشارة مكافأة فعالة لتطبيق التعلم المعزز في توليد النصوص الطويلة المفتوحة.
ثورة جديدة في التعلم المعزز: نظام Tournament-GRPO يغير قواعد اللعبة في توليد النصوص الطويلة
تقدم Tournament-GRPO إطارًا مبتكرًا للتعلم المعزز في توليد النصوص الطويلة، حيث يحسن جودة النتائج بفعالية. تجربة مع Deep Research Bench تظهر تفوق هذا النظام على الطرق التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
