في عالم الذكاء الاصطناعي، جلب التعلم المعزز (Reinforcement Learning) نقلة نوعية في قدرة نماذج اللغة الكبيرة (Large Language Models) على معالجة المعلومات والتفكير المنطقي. ومع ذلك، لا تزال تلك النماذج عرضة لعنة التوليد الذاتي (Autoregressive Curse) وذلك في حالات الاستدلال المنطقي الطويل. فحتى الاضطرابات البسيطة التي تحدث في بدايات عملية التوليد يمكن أن تنتشر بشكل غير قابل للإصلاح، مما يؤدي إلى فشل متسلسل في مسار الاستنتاج.

لمواجهة هذه المشكلة، اقترح الباحثون تقنية جديدة تُعرف بالتعلم المعزز القابل للمسح (E³RL)، التي تخلص النماذج من الاعتماد على إشارات خارجية من خلال ربط مكوناتها الداخلية بديناميكية عدم اليقين المعرفي. تعتمد هذه التقنية على تغيير العتبات الديناميكية والتخصيص التفضيلي في مستوى الشرائح، مما يتيح للنموذج إزالة العيوب المنطقية المحددة بدقة، مع إعادة استخدام المعلومات المحفوظة في سلاسل الذاكرة السابقة.

تم تدريب (E³RL) على مجموعة بيانات DeepMath-103k، وأظهرت النتائج التجريبية أنه يغير بشكل كبير كفاءة الاستكشاف في الاستدلالات الطويلة، مع تحسين استخدام العينات دون زيادة كبيرة في الذاكرة المطلوبة. وأظهرت التجارب على معايير الاستدلال الرياضي مثل AIME أن (E³RL) حقق زيادة ملحوظة في الأداء، حيث تفوقت نماذج الـ 4B و8B على النتائج السابقة بأكثر من 5.349% و6.514% على التوالي.

يشير هذا النجاح إلى أن (E³RL) يفتح آفاق جديدة للكسر في لعنة التوليد الذاتي في الاستدلالات الطويلة، ويؤسس قاعدة نظرية وتقنية لجيل جديد من الذكاء الاصطناعي العام القابل للشفاء الذاتي (AGI). فقد أثبت الباحثون أن بإمكانهم تطوير أنظمة ذكاء معقدة تستطيع تجاوز مشكلات سابقة وتعزيز قدرتها على التفكير المنطقي بشكل أكثر فعالية.