في عالم الذكاء الاصطناعي المتسارع، برز التعلم المعزز مع المكافآت القابلة للتحقق (RLVR) كمرحلة رئيسية في تدريب أحدث النماذج اللغوية الكبيرة (LLMs). ولكن مع هذا التقدم، تثير الاعتماد على مجموعات بيانات غير عامة ذات قيمة عالية الكثير من التساؤلات حول الاستخدام غير المصرح به للبيانات. مما يخلق حاجة ملحة إلى تدقيق هذه البيانات.

تعتبر هجمات استنتاج العضوية (MIAs) أدوات طبيعية في هذا المجال، لكنها تعاني من قيود، حيث تركز الطرق الحالية على اكتشاف المطابقة مع سلسلة مستهدفة ثابتة. وهذا يُمثل تحديًا للتعلم المعزز مع المكافآت القابلة للتحقق، نظرًا لأنه ينتج استجابات من النموذج ويعزز الناجحة منها، مما يعقد مسألة تدقيق التعرض للبيانات.

ومع ذلك، تُظهر الدراسات أن RLVR لا يزال يُمكن اكتشافه: فهو يعيد تشكيل توزيع استجابات النموذج على المحفزات التدريبية، مما ينتج آثار سلوكية يمكن الكشف عنها من خلال تدقيق مستهدف. ومن هنا، تم تقديم إطار تدقيق جديد يُعرف باسم "تدقيق انحراف السلوك" (DIBA)، والذي يقدم مستوى تدقيق على مستوى الاستعلام لعملية التعلم المعزز.

تقوم DIBA بمقارنة نموذج معدّل مع نقطة فحصته قبل تدخل RLVR على محاور متعددة تشمل أدلة جانب المكافآت التي تلتقط التغييرات في نجاح المهام القابلة للتحقق، بالإضافة إلى أدلة جانب السياسات التي تلتقط انزياح السلوك المرتبط بالمحفزات. من خلال تجميع النتائج من عدة تجارب عشوائية، تُنتج DIBA إشارة تدقيق مستقرة بمستوى الاستعلام.

في إطار عملي، تُظهر النتائج أن DIBA تتفوق باستمرار على النماذج الأخرى المستندة إلى نقل الاحتمالات، حيث تحقق حوالي 0.8 في منحنى تحت منحنى الاستقبال (AUC) وأداءً أفضل بمقدار عدة أضعاف على مستوى الاكتشاف.

كذلك، يتضح أن تدقيق RLVR يكون أقوى عندما تترك العمليات التدريبية آثارًا واضحة، ويكون أضعف عندما يؤدي النموذج الأساسي بشكل جيد بالفعل. في ظل ظروف عملية واقعية، غالبًا ما يكون النقل قويًا عبر أحجام النموذج نفسها، ولكن يكون أكثر تنوعًا عبر خوارزميات مختلفة، مما يجعله مفيدًا حتى في ظل تغير التوزيع مع أخذ بيانات ظل مُختارة بعناية.