في عصر الذكاء الاصطناعي، يبرز التعلم المعزز (Reinforcement Learning - RL) كأداة رئيسية لتطوير قدرات النماذج اللغوية الضخمة (Large Language Models - LLMs). ولكن يواجه هذا المسار تحديين أساسيين: ندرة بيانات التدريب المتوسطة الصعوبة واختلاف صعوبة الأسئلة مع تحسن أداء النماذج.

للتغلب على هذه التحديات، تم تقديم D²Evo، وهو إطار عمل مبتكر يجمع بين وعي الصعوبة والتطور الذاتي في عملية التعلم. في كل مرة يتم فيها تحديث النموذج، تقوم D²Evo بالتنقيب عن عينات متوسطة الصعوبة بناءً على قدرات النموذج الحالية، مما يمكّن من تحسين أداء النماذج بشكل تدريجي.

تتميز هذه العملية بتدريب سؤال مخصص (Questioner) لتوليد أسئلة متنوعة تناسب مستويات الصعوبة المناسبة. تلك الديناميكية تساهم في تعزيز التفكير التصوري والنقدي، وبالتالي تحصد المكاسب التدريجية في عملية الاستدلال.

تظهر التجارب الواسعة أن D²Evo يتفوق على الطرق الموجودة بالفعل في أداء التحديات الرياضية، حيث استطاع تحقيق نتائج متميزة باستخدام أقل من 2000 عينة رياضية حقيقية، كما يظهر قوة عالية في التعميم على معايير الاستدلال العامة.

يمكن أن تسهم هذه الابتكارات في تغيير طريقة إعداد نماذج الذكاء الاصطناعي، مما يجعلها أكثر كفاءة وقوة في معالجة المهام المعقدة.