في عالم الذكاء الاصطناعي، يمثل تكييف نماذج اللغة الكبيرة (Large Language Models) واحدة من أهم التحديات. فقد عانت تقنيات التعلم من تفضيلات البشر (Reinforcement Learning from Human Preferences) من مشكلات معقدة تتعلق بعدم استقرار تحديثات السياسات، وغياب وضوح الاتجاهات في التدرجات، والافتقار إلى القابلية للتفسير. ليتجاوزوا هذه العقبات، قام الباحثون بتعزيز الإطار النظري للتكييف من خلال تقديم عائلة Pair-GRPO، التي تضم نوعين متكاملين: Soft-Pair-GRPO و Hard-Pair-GRPO.

تعد Soft-Pair-GRPO تعديلاً طفيفاً لتقنية تحسين السياسات النسبية الجماعية (Group Relative Policy Optimization)، حيث تُستبدل المكافآت الرياضية المُعطاة للمجموعات بمكافآت ثنائية تعتمد على التفضيلات التبادلية. من خلال هذا التعديل، يتم الاحتفاظ بهيكل نموذج GRPO مع احتسابه البسيط لمتغيرات المكافآت.

أما Hard-Pair-GRPO، فهي نسخة متقدمة تطرح قيوداً محلية موضوعة بدقة، مما يتيح تحسين عملية تقليل الضوضاء في التدرجات وتقليل انجراف السياسات العالمية.

قدمت التجارب التي أُجريت على معايير تكييف نماذج اللغة الكبيرة، مثل HH-RLHF و UltraFeedback، أداءً يفوق العديد من الأساليب التقليدية ذات الجودة العالية. كما كانت التحسينات ملحوظة في معدل فوز تفضيلات البشر، استقرار التدريب، والقدرة على التعميم في التعلم القائم على التعزيز.

تشير الدراسات التجريبية إلى الفوائد الكبيرة التي يمكن الحصول عليها من كل عنصر أساسي في العائلتين، مما يثبت أن Pair-GRPO يمكن أن يُحدث تحولاً في كيفية تكييف نماذج الذكاء الاصطناعي بكفاءة وفعالية.