في عالم الذكاء الاصطناعي، يمثل التعلم المعزز مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) أحد الأساليب المعقدة التي تتطلب توازنًا دقيقًا بين التكاليف والفوائد. عادةً ما تُخصص ميزانية معينة لكل استفسار دون التفكير في صعوبة هذا الاستفسار بالنسبة للسياسة الحالية، مما يؤدي إلى هدر موارد التدريب.

إن الأسلوب التقليدي يؤدي إلى نوعين من حالات الفشل: 1) الاستفسارات السهلة التي لا توفر أي ميزة لأن السياسة الحالية قد حلتها بالفعل، و2) الاستفسارات غير القابلة للحل التي لا تعطي أي إشارات لأن السياسة لا تستطيع معالجتها. هذا الهدر في FLOPs (Floating Point Operations) التدريبية يحول دون تحقيق تعلم فعّال.

للتغلب على هذه المشكلة، تم تقديم استراتيجية جديدة تعرف باسم تحسين السياسة الجماعية المنظم (sorted Group Policy Optimization - sGPO). تعتمد هذه الطريقة على تبادل جزء صغير من FLOPs المستخدمة في الاستدلال لتحقيق خفض كبير في الـ FLOPs المهدرة أثناء التدريب.

الفكرة الرئيسية وراء sGPO هي أن استنتاج تكاليف استدلال منخفضة يمكن أن يصبح وكيلًا وحيدًا وصادقًا لصعوبة الاستفسار. من خلال توليد دفعة صغيرة من عينات الاستفسارات بشكل متوازي تحت السياسة الأولية، يُمكننا الحصول على معدل نجاح تجريبي يعرفنا عن الأداء الفعلي للنموذج.

هذا يدفعنا لتحديد حجم مجموعة الإطلاق في التدريب ليكون معكوس معدل النجاح، وهي قاعدة عملية تزيد من كفاءة العينة من خلال استخراج أكبر فائدة من كل مجموعة تم توليدها.

العملية ليست مفيدة فقط، ولكنها تقود أيضًا إلى تصفية البيانات وتنظيم الحجم الجماعي التعليمي، مما يسمح بجدولة الاستفسارات من السهل إلى الصعب. بفضل sGPO، يمكن تحقيق أو تجاوز أداء القواعد الأساسية مع تقليل إجمالي تكاليف التدريب بمقدار ثلاثة أضعاف، حتى عند احتساب تكلفة التحقق الأولية.