في دراسة حالية، تم التحقيق في قدرة نماذج Transformers على أداء التعلم المعزز في السياق (In-Context Reinforcement Learning - ICRL). يتطلب هذا النوع من التعلم من النماذج استنتاج وتنفيذ خوارزميات التعلم من بيانات المسارات، دون الحاجة إلى تحديث المعاملات. ومن خلال البحث، تم توضيح قدرة نموذج بسيط من وحدات الانتباه الذاتي (Self-Attention) على تنفيذ طرق تحسين السياسات بطرق مثبتة، مثل خوارزمية شبه التدرج SARSA وطريقة الممثل-الناقد (Actor-Critic)، وذلك من خلال بناء معاملات واضحة.

لكن الدراسة لا تقتصر على إثبات وجود هذه القدرة، بل تتناول أيضًا تصميم إجراء تدريب mimicking للمعلمين، وتحليل ديناميكيات تدفق التدرجات. وهذا ما سمح بإثبات أول ضمان للتقارب في أدبيات التعلم المعزز في السياق: تحت ظروف غنية مناسبة على توزيع MDP في التدريب، يتقارب تدفق التدرج محليًا وبسرعة أُسّيّة نحو فضاء المعاملات الأمثل المتوافق مع التحديث المطلوب.

على الصعيد التجريبي، أكدت النتائج من خلال تدريب نماذج Transformers على MDPs جدولية تم توليدها عشوائيًا، حيث استرجعت النماذج الهيكل العابر للمعاملات من بنيتنا الصريحة، وعند نشرها على MDPs غير المرئية، قدمت أداءً قويًا في التحكم السياقي.

تجمع هذه النتائج بين فهم الآليات وديناميات التدريب في التعلم المعزز في السياق، مما يضيء الطريق نحو فهم عميق لكيفية تنفيذ نماذج Transformers للخوارزميات التقليدية في هذا المجال.