في عالم الذكاء الاصطناعي، أصبح التعلم المعزز (Reinforcement Learning) عنصراً أساسياً في تحسين القدرة الرياضية لنماذج اللغة الكبيرة (Large Language Models). ومع ذلك، تكمن المشكلة في أن هذه العملية تحتاج إلى موارد كبيرة من الذاكرة، مما يجعل استخدامها تحدياً في البيئات ذات الموارد المحدودة. وللحد من هذه التحديات، قدم الباحثون طريقة جديدة تحت مسمى "استراتيجيات التطور مع تعظيم الحساسية" (ESSAM).

تجمع هذه الطريقة بين البحث بصفر مرتبة في فضاء المعلمات من استراتيجيات التطور (Evolution Strategies) مع تعظيم الحساسية (Sharpness-Aware Maximization) لتحقيق تحسن ملحوظ في الأداء العام للنموذج. أجريت تجارب لضبط النموذج على المهمة الرياضية الشهيرة GSM8K، وأسفرت النتائج عن دقة متوسطة تبلغ 78.27% عبر جميع النماذج المستخدمة.

تتفوق ESSAM على الطريقة التقليدية PPO، إذ حققت دقة 77.72%، وهي قريبة جداً من GRPO التي سجلت 78.34%. كما أظهرت تجارب التعميم أن النماذج المدربة باستخدام ESSAM تتمتع بقدرة عمومية أفضل، حيث سجلت أفضل النتائج في 5 من أصل 6 مجموعات بيانات.

أما في ما يخص استخدام الذاكرة، فقد نجحت ESSAM في تقليل متوسط استخدام الذاكرة %18 مقارنة بطريقة PPO و %10 مقارنةً مع GRPO. بالإضافة إلى ذلك، تم تصميم نسخة متسارعة من ESSAM، مما أدى إلى زيادة سرعة العمليات تقريباً للضعف دون التأثير على استخدام الذاكرة، حيث حققت دقة متوسطة بلغت 78.02%.

إن الدراسات الحالية تشير بوضوح إلى أن الأساليب المبتكرة مثل ESSAM تعزز من قدرات النماذج بشكل كبير، مما يفتح آفاق جديدة للذكاء الاصطناعي، خاصة في التطبيقات ذات القيود على الموارد. ما رأيكم في هذا التطور الثوري؟شاركونا في التعليقات.