اختراق جديد في التعلم المعزز: الكشف عن الأخطاء والتقنيات الانتقائية لتحسين الأداء خارج نطاق البيانات

في عالم التعلم المعزز (Reinforcement Learning)، يواجه الباحثون تحديًا رئيسيًا يتمثل في التحسين المفرط لقيمة الأفعال التي تقع خارج نطاق البيانات (Out-of-Distribution - OOD). تعتمد الأساليب الحالية عادةً على فرض عقوبات على العينات غير المرئية، لكنها تفتقر إلى القدرة على التمييز بين الأفعال OOD المفيدة وتلك الضارة، مما قد يعيق الاستكشاف المبتكر في بيئات جديدة.

للتغلب على هذه المشكلة، تم تقديم DOSER (الكشف عن الأخطاء بناءً على نماذج الانتشار والتنظيم الانتقائي) كإطار عمل جديد يتجاوز العقوبات الموحدة. يعتمد هذا الهيكل على تدريب نموذجين من نماذج الانتشار لالتقاط سياسة التصرف وتوزيع الحالة، حيث يستخدم خطأ إعادة البناء عند إزالة الضوضاء كمؤشر موثوق لأفعال OOD.

خلال عملية تحسين السياسة، يعمل DOSER على التمييز بين الأفعال OOD المفيدة والضارة من خلال تقييم التحولات المتوقعة، حيث يقوم بتقليص الأفعال التي تشكل مخاطر بينما يشجع الاستكشاف للأفعال التي تمتلك إمكانيات عالية.

من الناحية النظرية، تم إثبات أن DOSER يمثل انكماشًا بـ γ، مما يعني أنه يقبل نقطة ثابتة فريدة مع تقديرات قيمة محدودة. كما تم توفير ضمانات أدائية أسيمتوتية مقارنة بالسياسة المثلى عند تقريب النموذج وأخطاء الكشف عن OOD.

عبر مجموعة شاملة من اختبارات التعلم المعزز، سجل DOSER أداءً متفوقًا باستمرار مقارنة بالأساليب السابقة، خاصة عندما يتعلق الأمر بمجموعات البيانات غير المثلى. هذه النتائج تشير إلى أن DOSER يمتلك القدرة على تحسين طرق التعلم المعزز التقليدية، مما يجعله خطوة إضافية نحو تحقيق أداء أعلى ونتائج أكثر دقة.

اختراق جديد في التعلم المعزز: الكشف عن الأخطاء والتقنيات الانتقائية لتحسين الأداء خارج نطاق البيانات

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

تذليل العقبات: كيف نجعل نقل نماذج الذكاء الاصطناعي إلى الإنتاج أكثر سلاسة؟

محادثات مثيرة بين جوجل وSpaceX لإنشاء مراكز بيانات في الفضاء: هل تصبح الفضاء وجهة الذكاء الاصطناعي القادمة؟

كل ما عليك معرفته عن إعلانات جوجل في عرض أندرويد: حواسيب Googlebooks وميزات Gemini المبتكرة!