في السنوات الأخيرة، أصبح التعلم التعزيزي (Reinforcement Learning) جزءًا أساسيًا من تطوير الأنظمة المعتمدة على الذكاء الاصطناعي، حيث اعتاد التركيز على تدريب وكلاء متخصصين لتحسين دوال المكافآت المحددة سلفًا ضمن بيئات ضيقة. ومع ذلك، أحدثت نماذج اللغات الضخمة (Large Language Models) تحوّلاً جذريًا في هذا السياق، حيث تمكّنت من معالجة مهام معقدة وغير محددة.

تتجاوز الإطارات الجديدة المرسومة بواسطة التعلم التعزيزي التقليدي من خلال تركيزها على تطوير وكلاء ذاتيين يتمتعون بقدرات التخطيط طويل الأمد، وضبط الاستراتيجيات الديناميكية، والتفكير التفاعلي في بيئات العالم الواقعي غير المؤكّدة. هذه الوكلاء ليست مجرد أدوات تنفيذية، بل يمكنها تحديد الأهداف، والتكيف مع الأحداث المتغيرة، والعمل بذكاء في مواقف معقدة.

من خلال دمج القدرات المعرفية مثل التفكير الفوقي (meta-reasoning) والتأمل الذاتي (self-reflection) وصنع القرار متعدد الخطوات، تُغني نماذج اللغات الضخمة التعلم التعزيزي بأبعاد جديدة داخل حلقة التعلم.

في هذه الورقة، نستعرض الأسس المفاهيمية والابتكارات المنهجية والتصاميم الفعالة التي تقف وراء هذا الاتجاه المطور. بالإضافة إلى ذلك، نحدد التحديات الحرجة ون outline الاتجاهات المستقبلية الواعدة لبناء التعلم التعزيزي الوكيل القائم على نماذج اللغات الضخمة.