لقد تمثل التعلم المعزز مع المكافآت القابلة للتحقق (RLVR) نموذجًا رائدًا في تمكين نماذج اللغات الضخمة (Large Language Models) من تحسين قدراتها في التفكير والتحليل. ومن بين الخوارزميات الأكثر تمثيلًا في هذا المجال، نجد خوارزمية GRPO. في هذا الدراسة، نكشف كيف أن GRPO يمكن إعادة صياغتها بشكل تمييزي كفارق مزوّد من الدرجات الإيجابية والسلبية.

تظهر هذه النظرة أن GRPO تعمل على زيادة درجات التسلسلات من التكرارات الإيجابية المعتمدة، بينما تقلل من تلك الناتجة عن التكرارات السلبية، حيث تعد هذه الدرجات عبارة عن متوسطات لنسب قياس أهمية الرموز المقتطعة. ومع ذلك، يكشف هذا الإصدار الجديد عن تحديين هيكليين رئيسيين لخوارزمية GRPO، وهما عدم توافق تقييم الاحتمالية وتحويل الاعتماد على الدرجات.

لمواجهة هذه القيود، نقدم إطار ConSPO، الذي يمثل تحسين حركة تسلسلات الانحدار في التعلم المعزز من خلال تقنيات مقارنة جديدة. يستبدل ConSPO درجات GRPO المقتطعة بنسب احتمالية التسلسلات المقاسة ومدروسة بطولها، مما يتوافق بشكل أفضل مع الاحتمالات المستخدمة في توليد النماذج. وبفضل اعتماد هدف أسلوب InfoNCE الجماعي، يتم تحسين نقاط التكرارات الإيجابية مقابل المشتتات السلبية من نفس المجموعة، مما يعزز تخصيص الاعتمادات وفقًا لمستويات الدرجات النسبية.

تظهر نتائج التجارب الواسعة عبر نماذج أساسية متنوعة أن ConSPO outperform العديد من الخوارزميات القوية في مجالات التفكير الرياضي الصعبة، مما يشير إلى أن هذه التقنية لن تعزز فقط القدرات التحليلية لنماذج الذكاء الاصطناعي، بل ستفتح آفاقًا جديدة للابتكار في هذا المجال.