في عصر الذكاء الاصطناعي، اصطُدِمَت الأبحاث بالعديد من التحديات المتعلقة بتطوير نماذج اللغة. وأحد النماذج البارزة هو التعلم المعزز مع المكافآت القابلة للتحقق (RLVR) الذي أثبت فعاليته بعد التدريب. لكن، ماذا يحدث عندما لا يكون لدينا محققون مثاليون؟

عملية التعلم تعتمد على جودة البيانات، وإذا كان لدينا ضوضاء في عمل المحققين، كيف سيؤثر ذلك على التعلم؟ تناولت دراسة جديدة هذا الموضوع من خلال اختبار تأثير بعض الضوضاء المعينة على دقة النماذج. إذ تم اختبار النموذج Qwen2.5 (0.5B، 1.5B) باستخدام طريقة GRPO وتم إدخال ضوضاء متحكم بها لكل من الإيجابيات الزائفة (false positives) والسلبية الزائفة (false negatives) في إشارة الدقة الثنائية، مع تغيير عدد التشغيلات لكل تنبيه كمقياس للحوسبة.

النتائج أثبتت أن الفجوة في دقة التحقق تستمر رغم القدرة الكبيرة على الحوسبة، وأن العوائد من زيادة الحوسبة كانت متضائلة بشكل ملحوظ. كما أظهرت الدراسة أن الأخطاء السلبية تقلل من أداء النموذج بشكل أسرع من الأخطاء الإيجابية، مما يشير إلى أن جودة المحققين وموارد التدريب ليست قابلة للتبادل.

يجب أن ندمج هذه النتائج في استراتيجيات تحسين النموذج، حيث يبدو أن تقليل الأخطاء السلبية يعد رافعة أكثر فعالية من مجرد زيادة الموارد الحاسوبية. إذاء ذلك، تُبرز الدراسة أهمية التركيز على تحسين جودة البيانات وموارد التدريب لتحقيق أداء أفضل للنماذج.