في عالم التعلم المعزز (Reinforcement Learning)، يواجه الباحثون تحديًا رئيسيًا يتمثل في التحسين المفرط لقيمة الأفعال التي تقع خارج نطاق البيانات (Out-of-Distribution - OOD). تعتمد الأساليب الحالية عادةً على فرض عقوبات على العينات غير المرئية، لكنها تفتقر إلى القدرة على التمييز بين الأفعال OOD المفيدة وتلك الضارة، مما قد يعيق الاستكشاف المبتكر في بيئات جديدة.
للتغلب على هذه المشكلة، تم تقديم DOSER (الكشف عن الأخطاء بناءً على نماذج الانتشار والتنظيم الانتقائي) كإطار عمل جديد يتجاوز العقوبات الموحدة. يعتمد هذا الهيكل على تدريب نموذجين من نماذج الانتشار لالتقاط سياسة التصرف وتوزيع الحالة، حيث يستخدم خطأ إعادة البناء عند إزالة الضوضاء كمؤشر موثوق لأفعال OOD.
خلال عملية تحسين السياسة، يعمل DOSER على التمييز بين الأفعال OOD المفيدة والضارة من خلال تقييم التحولات المتوقعة، حيث يقوم بتقليص الأفعال التي تشكل مخاطر بينما يشجع الاستكشاف للأفعال التي تمتلك إمكانيات عالية.
من الناحية النظرية، تم إثبات أن DOSER يمثل انكماشًا بـ γ، مما يعني أنه يقبل نقطة ثابتة فريدة مع تقديرات قيمة محدودة. كما تم توفير ضمانات أدائية أسيمتوتية مقارنة بالسياسة المثلى عند تقريب النموذج وأخطاء الكشف عن OOD.
عبر مجموعة شاملة من اختبارات التعلم المعزز، سجل DOSER أداءً متفوقًا باستمرار مقارنة بالأساليب السابقة، خاصة عندما يتعلق الأمر بمجموعات البيانات غير المثلى. هذه النتائج تشير إلى أن DOSER يمتلك القدرة على تحسين طرق التعلم المعزز التقليدية، مما يجعله خطوة إضافية نحو تحقيق أداء أعلى ونتائج أكثر دقة.
اختراق جديد في التعلم المعزز: الكشف عن الأخطاء والتقنيات الانتقائية لتحسين الأداء خارج نطاق البيانات
تقديم إطار عمل مبتكر يعتمد على نماذج الانتشار للكشف عن الأخطاء في التعلم المعزز دون الحاجة للعقوبات التقليدية، مما يفتح آفاقًا جديدة لاستكشاف البيانات. اكتشف كيف يمكن لهذه الطريقة الجديدة تحسين أداء الأنظمة بشكل كبير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
