في عالم التعلم التعزيزي (Reinforcement Learning - RL)، غالبًا ما تتعرض الأنظمة لانخفاض كبير في الأداء عند مواجهة ظروف تشغيل جديدة تختلف عن تلك التي تم تدريبها عليها. تُعرف هذه الظاهرة بـ "التغيرات التوزيعية" (Distributional Shifts) التي تنشأ نتيجة تغير في العملية التي تولد البيانات. سواء كان ذلك بين مراحل التدريب والتقييم، مثل التعميم داخل التوزيع (In-Distribution) أو خارج التوزيع (Out-of-Distribution)، أو في بيئات غير ثابتة تتطور مع مرور الوقت، فإن التحديات تكمن في فهم العلاقة الدقيقة بين هذه الظواهر.
لتقديم وضوح أكبر، تم تطوير تصنيف موحد يقوم بتحديد مصادر التغيرات التوزيعية في التعلم التعزيزي. يقوم هذا التصنيف بنقل مفهوم "تغير مجموعة البيانات" (Dataset Shift) الموجود في التعلم الخاضع للإشراف إلى بيئة التعلم التعزيزي. من خلال استخدام عملية اتخاذ القرار ذات الملاحظات الجزئية (Partially Observable Markov Decision Process - POMDP)، يتم تحليل التفاعل بين الوكيل (Agent) والبيئة (Environment) إلى مكوناته الأساسية بما في ذلك توزيع الحالة، عملية الملاحظة، السياسة، المكافأة، وديناميكيات الانتقال، جنبًا إلى جنب مع حدود الزمن المتغير.
يتميز التصنيف المقترح بالتغيرات الداخلية التي يقودها الوكيل، والتغيرات الخارجية التي قادتها البيئة، مما يوفر رؤية جديدة حول التصنيفات المختلفة. كما يتم استخدام منظور حدود الزمن المتغير لتحديد التغيرات الصريحة وغير الصريحة والهجينة. هذا النموذج يساعد في توحيد مفهوم التعميم داخل وخارج التوزيع مع الظروف غير الثابتة كالتغيرات المهيكلة في العملية الأساسية.
لمزيد من التحقق والمقارنة، يتم تقديم إطار تقييم لقياس تأثير التغيرات على الأداء والتكيف من خلال مقاييس انخفاض الأداء والتعافي. من خلال ربط التغيرات التوزيعية بهيكل الأسباب، يقدم هذا البحث دعماً لتحليل شامل لصلابة النماذج تحت وطأة التغيرات التوزيعية.
فهم جذري للتغيرات في التعزيز: تصنيف موحد يغير قواعد اللعبة!
تقدم هذه الدراسة تصنيفًا موحدًا لتحديد أسباب التغيرات Distributional Shifts في أنظمة التعلم التعزيزي. من خلال ربط المفاهيم التقليدية بالتغير البيئي، تسلط الضوء على أهمية فهم تأثيرات هذه التغيرات على أداء النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
