في خطوة غير متوقعة، أثبتت الأبحاث الأخيرة أن نماذج المحولات (Transformers) المدربة باستخدام التعلم المعزز (Reinforcement Learning) تطور القدرة على توليد خطوات تفكير وسيطة، وذلك عند تناول بيانات دقيقة ومناسبة. يطرح هذا الاكتشاف تساؤلات جديدة حول كيفية تصميم النماذج الذكية لتكون أكثر فعالية.

تتمثل التحديات الرئيسية في فهم كيفية توجيه المكافآت النادرة (sparse rewards) للمسارات السياسية (policy gradient) لاكتشاف هذا النوع من التفكير المنظم. للمساعدة في حل ذلك، تم تحليل ديناميات سياسة المحولات ذات الطبقة الواحدة (single-layer Transformers) في مهمة تخطيطات الرسوم البيانية، والتي لا يمكن حلها بدون خطوات التفكير الوسيطة.

تشير النتائج إلى أنه رغم التوجه الشامل نحو صحة الإجابات النهائية فقط، إلا أن ذلك يدفع المحول للوصول إلى خوارزمية منظمة وقابلة للتفسير تتنقل عبر الرسم البياني خطوة بخطوة.

هذا التحليل أسفر عن تحديد الخصائص التوزيعية المطلوبة لهذه الظاهرة، مع الإشارة إلى الدور الحاسم للأمثلة البسيطة (simple examples): الحالات التي تتطلب خطوات تفكير أقل. عندما يتم التركيز على هذه الأمثلة البسيطة أثناء التدريب، يكتسب المحول استراتيجية تنقل عامة يمكن أن تمتد إلى سلاسل أطول. ومع ذلك، إذا اختفت هذه الأمثلة، يصبح التعلم بواسطة سياسة المكافأة أمراً غير قابل للتطبيق.

تجاربنا على بيانات صناعية ونماذج لغوية حقيقية أثبتت أن هذه النتائج النظرية قابلة للتطبيق في البيئات العملية. ما هذه الاكتشافات بالنسبة لمستقبل الذكاء الاصطناعي؟ يبدو أن الطريق نحو نماذج ذكاء اصطناعي أكثر فهماً وتفسيراً قد بدأ.