شهد مجال التعلم المعزز وعالم الذكاء الاصطناعي تطورات مثيرة خلال السنوات الأخيرة، لاسيما فيما يتعلق بالمكافآت القابلة للتحقق (Verifiable Rewards). ولكن، تبقى مشكلة الاستكشاف الفعال في المسارات الجديدة العقبة الرئيسية، حيث غالبًا ما تواجه النماذج صعوبة في تجاوز توزيع سياساتها الأولية.

لذا، وللتغلب على هذا التحدي، تم تقديم إطار العمل OGER (مكافأة استكشاف موجهة غير متصلة)، الذي يجمع بين إرشاد المعلم غير المتصل واستراتيجيات التعلم المعزز عبر عدسة نمذجة مكافآت متخصصة.

يستفيد OGER من التدريب التعاوني لعدة معلمين ويقوم ببناء مكافأة استكشاف مساعدة تستند إلى كل من المسارات غير المتصلة وخصائص عدم يقين النموذج نفسها، مما يشجع على الاستكشاف الذاتي. وقد أظهرت التجارب الفسيحة عبر معايير التفكير الرياضي والمفاهيم العامة أن OGER يتفوق باستمرار على المعايير التنافسية، محققًا مكاسب واضحة في التفكير الرياضي وأداء قوي في المهام خارج النطاق.

تقدم دراسات الانحلال التفصيلية لدينا تحليلًا شاملًا لعمليات التدريب، مما يضمن فعالية تعديل المكافآت المعتمدة على عدم اليقين. لمن يرغب في استكشاف الكود، يمكنكم زيارة رابط المشروع.

هل تعتقد أن هذا الإطار يمكنه تغيير قواعد اللعبة في الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!