في عالم الذكاء الاصطناعي، تعد خوارزميات تحسين السياسات النسبية (Group Relative Policy Optimization - GRPO) من الأدوات الرئيسية المستخدمة لتحسين أداء وكلاء البحث خلال تفاعلات متعددة الجولات مع محركات البحث. ومع ذلك، لا تزال هذه الخوارزميات تواجه تحديات كبيرة في بيئات البحث متعددة الخطوات، حيث يتم معاقبة الخطوات الوسيطة الصحيحة في حال كان الإجابة النهائية خاطئة.

تفيد البحوث أن التدريب يعتمد على موازنة دقيقة بين المزايا الإيجابية والسلبية، مما يؤدي غالبًا إلى عدم الاستقرار. ونتيجة لذلك، يمكن أن تتعرض قدرات معالجة اللغة الطبيعية للتدهور أو حتى انهيار تدريبي كارثي.

لحل هذه الإشكاليات، وُضعت استراتيجية جديدة تُعرف باسم CalibAdv، والتي تهدف إلى تحسين عملية توزيع المزايا بين الأداء الجيد والسيء، مما يسمح بتقليل العقوبات السلبية بشكل دقيق. يعتمد CalibAdv على تصميم خفيف الوزن قادر على تحسين تقييمات المقدرة بناءً على مؤشرات التنفيذ العادية.

بدعم من تجارب موسعة على ثلاثة نماذج وسبعة معايير مختلفة، أثبت CalibAdv أنه ليس فقط يحسن من أداء النموذج ولكنه أيضًا يعزز من استقراره خلال التدريب. ليكون بمثابة الحل المثالي لوكلاء البحث الذين يسعون لتحقيق نتائج دقيقة وموثوقة دون الاضطرار للقلق بشأن عدم استقرار التدريب. لمزيد من التفاصيل، يمكنكم الاطلاع على الشيفرة المصدرية المتاحة على GitHub.