في عالم الذكاء الاصطناعي، يعد التعلم المعزز مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) أحد أعلى المعايير لتحقيق نتائج رائعة في مجالات التفكير الرياضي ونماذج اللغة المتعددة. ومع ذلك، فإن هذه الطريقة تأتي مع تحدٍ كبير يتمثل في تراجع القدرات، حيث تظهر نماذج الذكاء الاصطناعي تراجعاً في المهارات الأساسية مثل الإدراك والدقة بعد تدريب طويل الأمد دون استراتيجيات تنظيمية مناسبة.

في هذا السياق، تكشف الأبحاث الحديثة عن وجود أدلة ملموسة تبرز تدهور أداء نماذج الذكاء الاصطناعي في المهام الأساسية. تشكّل هذه المشكلة تحدياً كبيراً، حيث تركز التقنيات التقليدية على الحفاظ على الأداء القائم ولكنها قد لا تضمن الاحتفاظ بمعرفة أوسع. في محاولة لحل هذه القضية، تم تقديم استراتيجية جديدة تحت مسمى RECAP.

تستند RECAP إلى إعادة وزن الأهداف الديناميكية للحفاظ على المعرفة العامة. تعمل هذه الآلية من خلال استخدام إشارات قصيرة الأجل للتقارب وعدم الاستقرار، مما يساعد على إعادة توجيه التركيز بعيداً عن الأهداف المشبعة نحو الأهداف ذات الأداء الضعيف أو المتقلبة. الأهم من ذلك، أن هذه الطريقة لا تتطلب تدريب نماذج إضافية أو تعديلات معقدة، مما يجعلها سهلة التطبيق ضمن الأنظمة الحالية.

تظهر التجارب المكثفة على نماذج Qwen2.5-VL-3B وQwen2.5-VL-7B أن استراتيجية RECAP لا تعمل فقط على الحفاظ على القدرات العامة، بل تعزز أيضاً من مهارات التفكير من خلال الموازنة بشكل أفضل بين المكافآت داخل المهام. هذا التطور يعد بمثابة خطوة كبيرة نحو تحسين الذكاء الاصطناعي وتعزيز أدائه.