في دراسة حالية، تم التحقيق في قدرة نماذج Transformers على أداء التعلم المعزز في السياق (In-Context Reinforcement Learning - ICRL). يتطلب هذا النوع من التعلم من النماذج استنتاج وتنفيذ خوارزميات التعلم من بيانات المسارات، دون الحاجة إلى تحديث المعاملات. ومن خلال البحث، تم توضيح قدرة نموذج بسيط من وحدات الانتباه الذاتي (Self-Attention) على تنفيذ طرق تحسين السياسات بطرق مثبتة، مثل خوارزمية شبه التدرج SARSA وطريقة الممثل-الناقد (Actor-Critic)، وذلك من خلال بناء معاملات واضحة.
لكن الدراسة لا تقتصر على إثبات وجود هذه القدرة، بل تتناول أيضًا تصميم إجراء تدريب mimicking للمعلمين، وتحليل ديناميكيات تدفق التدرجات. وهذا ما سمح بإثبات أول ضمان للتقارب في أدبيات التعلم المعزز في السياق: تحت ظروف غنية مناسبة على توزيع MDP في التدريب، يتقارب تدفق التدرج محليًا وبسرعة أُسّيّة نحو فضاء المعاملات الأمثل المتوافق مع التحديث المطلوب.
على الصعيد التجريبي، أكدت النتائج من خلال تدريب نماذج Transformers على MDPs جدولية تم توليدها عشوائيًا، حيث استرجعت النماذج الهيكل العابر للمعاملات من بنيتنا الصريحة، وعند نشرها على MDPs غير المرئية، قدمت أداءً قويًا في التحكم السياقي.
تجمع هذه النتائج بين فهم الآليات وديناميات التدريب في التعلم المعزز في السياق، مما يضيء الطريق نحو فهم عميق لكيفية تنفيذ نماذج Transformers للخوارزميات التقليدية في هذا المجال.
تحويل التعلم المعزز من خلال نماذج Transformers: اكتشاف آفاق جديدة في الأمثلة السياقية
يكشف بحث جديد عن قدرة نماذج Transformers على تنفيذ التعلم المعزز في السياق (ICRL) من خلال استنتاج وتنفيذ خوارزميات التعلم من بيانات المسارات. الدراسة تقدم تأكيدًا قويًا حول كيفية استفادة هذه النماذج من خوارزميات التعلم التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
