في عالم الذكاء الاصطناعي، تمثل نماذج اللغات الضخمة (Large Language Models) قفزة نوعية في كيفية استيعاب وإنتاج اللغة. ومع تزايد الاعتماد على التعلم المعزز، بما في ذلك التعلم المعزز مع مكافآت قابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR)، تبرز الحاجة إلى تحسين طرق تصميم تقنيات أخذ العينات.

أحد أبرز التحديات التي تواجه هذه الأساليب هو "مشكلة الانحياز-الفرق"، حيث تؤثر طرق أخذ عينات الرموز على أداء العملية التعليمية. تركز الأساليب التقليدية مثل PPO (Proximal Policy Optimization) وGRPO (Generalized Reinforcement Policy Optimization) على نسب أخذ العينات على مستوى الرموز، مما يؤدي إلى انحياز نتيجة تجاهل عدم تطابق توزيع الحالة السابقة.

وفي المقابل، تقدم النسب التي تشمل سلسلة كاملة تصحيحاً دقيقاً على مستوى المسار، ولكنها تعاني من تباين مرتفع بسبب تراكم النسب على كل رمز. هنا، تأتي طريقة GSPO (Generalized Suboptimal Policy Optimization) لتخفيف الفروقات العددية من خلال تطبيع الطول، إلا أنها لا تزال بعيدة عن التصحيح الكامل.

تقدم هذه الورقة النهج الثوري "نسبة أخذ عينات الرموز التراكمية"، التي تتضمن منتج النسب الرموز حتى موضع معين. وقد أظهرت نتائج البحث أن هذه النسبة توفر تصحيحاً غير متحيز وتتسم بتباين أقل بكثير مقارنة بالنسب التقليدية.

وبناءً على ذلك، تم تقديم CTPO (Cumulative Token Policy Optimization) التي تجمع بين نسبة أخذ العينات التراكمية مع تكييف موضعي للحدود. هذا يعزز من انتظام التنظيم عبر كل الرموز، مما يؤدي إلى أداء متسق ومتميز.

تم تنفيذ CTPO وتقييمه في بيئة معقدة تتعلق بالتفكير الرياضي، حيث أثبتت النتائج تفوقها على الأساليب الأخرى مثل GRPO وGSPO. يمكنكم مراجعه الكود المتاح على GitHub لاستكشاف هذه التقنية المبتكرة.