في عالم الذكاء الاصطناعي، تتجه الأنظار العديدة نحو تطوير تقنيات جديدة لرفع مستوى التفكير الرياضي في نماذج اللغة الكبيرة (Large Language Models). إحدى هذه التقنيات الجديدة هي تحسين سياسة التحمل بواسطة التعزيز المرافق، والمعروفة اختصارًا بـ PrAg-PO. تسعى هذه التقنية إلى تجاوز العقبات التي تواجهها النماذج الحالية، مثل الشغف المفرط لنماذج معينة وعدم استقرار ديناميات التدريب.

خلال الأبحاث، لوحظ أن العديد من خوارزميات التعلم المعزز، مثل تحسين السياسة النسبي الجماعي (GRPO)، نجحت في تحسين قدرات التفكير الرياضي بشكل ملحوظ. ومع ذلك، كانت الأساليب السابقة تميل إلى الاعتماد على قوالب ثابتة أثناء التدريب، مما ينتج عنه مشكلات في التنوع ويدفع النماذج إلى التكيف الزائد مع قوالب معينة.

تأتي تقنية PrAg-PO لتقديم حلاً مبتكرًا. هذه التقنية تجمع بين قوالب مختلفة ونماذج مكافأة قائمة على نوع القالب أثناء التدريب، مما يحفز النماذج على تطوير نتائج متنوعة تحت إشرافات وتعليمات مختلفة. هذا التنوع في المخرجات لا يعزز فقط دقة النتائج، بل يقلل أيضًا من مخاطر الانهيار المبكر في التدريب.

أظهرت التجارب العملية على نماذج مثل DeepSeek-R1-Distill-Qwen-1.5B وQwen2.5-Math-1.5B وQwen3-1.7B أن PrAg-PO تتفوق بشكل مستمر على الأساليب التقليدية، مما يجعلها خيارًا قويًا على مختلف معايير الرياضيات. وهذا يعد إنجازًا كبيرًا حيث تم استخدام مجموعة تدريب ثابتة من 8,500 مشكلة على مستوى MATH من 3-5.

إذا كنت مهتمًا بمعرفة المزيد عن هذه التقنية والمزايا التي تقدمها، يمكنك الاطلاع على الكود ونقاط التحقق الخاصة بالنموذج المتاحة عبر الرابط:
[https://github.com/wenquanlu/PrAg-PO]. ما رأيكم في هذا التطور المثير؟ شاركونا في التعليقات!