الأنظمة التقليدية قد تلجأ إلى تقسيم المكافآت إلى ثنائية (0، 1) للتخفيف من مشاكل انحراف المحققين، لكن التحقق غير المثالي يؤدي إلى مشكلتين رئيسيتين:
1. **سلبيات زائفة** (false negatives) - حيث يتم رفض الإجابات الصحيحة.
2. **إيجابيات زائفة** (false positives) - حيث يتم قبول الإجابات غير الصحيحة.
نقدم إطارًا جديدًا يتمثل في اعتبار عدم الاعتمادية عند المحققين كقناة مكافأة عشوائية ذات معدلات ضوضاء غير متساوية، ما يفتح المجال لتقديم تصحيحات خفيفة الوزن.
تصحيحات خفيفة الوزن
نقدم نوعين من التصحيحات:
1. **تصحيح عكسي** (backward correction) الذي يمنح مكافأة بديلة محايدة، مما يساعد في ضمان أن التقديرات لا تنحرف.
2. **تصحيح أمامي** (forward correction) يعيد وزن عناصر دالة الدرجات، مما يتماشى مع الاتجاه النظيف لتحديث الأبعاد.
عند تنفيذ كلا التصحيحات في عملية تحسين السياسات النسبية، تحققنا من أن كلا منهما يحسن أداء أنظمة RLVR في معالجة الحسابات الرياضية تحت ضوضاء المحققين، مع أن التصحيح الأمامي يظهر استقرارًا أكبر تحت الضوضاء الأكثر شدة.
وفي الختام، آلية استئنافات مدعومة بمحقق LLM خفيف الوزن تقدر معدل السلبيات الزائفة عبر الإنترنت، مما يساهم في تحسين الأداء بشكل أكبر. هذا التطور يعد خطوة هامة نحو تحسين موثوقية أنظمة الذكاء الاصطناعي بشكل عام.
ما رأيكم في هذا التطور المثير؟ شاركونا تعليقاتكم.
