في عالم الذكاء الاصطناعي، يتجلى تحدي تحسين التفكير في نماذج اللغة الضخمة (LLMs)، وقد برز التعلم المعزز القابل للتحقق (RLVR) كأداة فعالة في هذا المجال. أظهرت الأبحاث الأخيرة أن تعزيز العينات السلبية (NSR) الذي يركز على معاقبة الخطوات الخاطئة بدلاً من مجرد مكافأة الصحيحة، يمكن أن يُحقق أداءً مماثلاً بل وأفضل من أساليب أكثر تعقيداً مثل PPO و GRPO.

ومع ذلك، تعاني التقنيات الحالية للاستعانة بتعزيز السلبية من استخدام عقوبات ثابتة طيلة عملية التدريب، مما يجعلها تعامل كل إجابة خاطئة بنفس الطريقة. وهذا ما دفعنا لتقديم توسيعين جديدين لإطار عمل NSR، وهما تعزيز العينات السلبية التكيفية (A-NSR) وتعزيز سلبية وزنية للثقة (CW-NSR).

لتفادي القيود المفروضة من العقوبات الثابتة، تستخدم A-NSR وظائف جدولة تعتمد على الزمن. حيث تركز في مراحل التدريب الأولى على تصحيح الأخطاء بشكل مكثف لتحسين استقرار النموذج، ومع تقدم التدريب تنتقل نحو تحديثات أكثر دقة ومعالجة.

أما CW-NSR، فيؤكد على أن الأخطاء تختلف في مستوى الأهمية. وهذا يساعد النموذج على فرض عقوبات متفاوتة وفقًا لمعدل ثقة النموذج في تصرفاته، حيث تكون العقوبات أكبر في حالة الثقة العالية عن خطأ معين وتكون أقل في حالة الأخطاء الناتجة عن استكشاف غير مؤكد.

تظهر التحليلات الرسمية كيف تتحكم هذه الآليات في تحديثات مستوى الرموز، مما يتيح للنموذج إعادة توزيع الاحتمالات بطريقة مدعومة سابقًا ويقدم دفاعًا طبيعياً ضد الإفراط في التكيف. وقد تم اختبار هذه الطرق على مجموعات بيانات معقدة مثل MATH و AIME 2025 و AMC23 باستخدام بنية Qwen2.5-Math-1.5B.

إذا كنت متحمسًا لمزيد من التطورات في مجال الذكاء الاصطناعي وكيف تؤثر هذه التقنيات على نماذج اللغة، ما رأيكم في هذه الابتكارات؟ شاركونا في التعليقات.