في مجالات التعلم المعزز، تعتبر إعادة استخدام البيانات طريقة فعالة لتعزيز الكفاءة، خاصة في البيئات التي تعاني من نقص في البيانات، مثل الروبوتات في العالم الحقيقي. ولكن، تنطوي هذه العملية على مخاطر، أهمها فرط التكيف (overfitting). في وقت سابق، ركزت الدراسات على التحيز في المقييم، بينما ظلت مشاكل عدم استقرار التمثيل في التعلم الذاتي التنبئي (Self-Predictive Learning) تحت أنظمة تحديث البيانات العالية (High Update-to-Data Regimes) غير مستكشفة بشكل مثير.
لتجاوز هذه الفجوة، نقدم تقنية جديدة تسمى R2R2، والتي تشير إلى «التمثيل القوي عبر تقليل الإزدواجية». تُعتبر هذه التقنية أسلوب تنظيم داخل التعلم الذاتي التنبئي. من خلال التحليل النظري، تمكنا من تحديد أن طريقة التمركز الصفري (zero-centering) التقليدية تتعارض مع الخصائص الطيفية لـSPL، مما دفعنا لتطوير هدف غير مركزي وفقًا لذلك.
قمنا باختبار تقنية R2R2 على خوارزميات تعتمد على SPL مثل TD7. لتعزيز قدرتنا على المنافسة، قمنا أيضًا بتوسيع أحدث التقنيات المتقدمة SimbaV2، والتي كانت تفقد في الأساس استخدام SPL، من خلال دمج وحدة SPL مخصصة، أطلقنا عليها اسم SimbaV2-SPL. أظهرت التجارب على 11 مهمة تحكم مستمر أن R2R2 فعالة في التخفيف من فرط التكيف؛ حيث أظهرت نتائجنا تحسينًا يصل إلى ~22% على TD7 عند نسبة تحديث البيانات 20، بالإضافة إلى مكاسب إضافية من SimbaV2-SPL، التي أنشأت بمفردها معيارًا جديدًا. يمكنكم العثور على الشيفرة المصدرية هنا: [https://github.com/songsang7/R2R2].
هل أنتم متحمسون لرؤية هذه التطورات الجديدة في الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!
اكتشاف ثوري في التعلم المعزز: تقنيات R2R2 لتقليل الإزدواجية وتعزيز الكفاءة!
تمثل تقنية R2R2 خطوة هامة في مجال التعلم المعزز، حيث تعالج مشكلة إعادة استخدام البيانات بشكل مكثف من خلال تقليل الإزدواجية. تجارب جديدة تؤكد فعاليتها في تحسين الأداء في تطبيقات التحكم المستمر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
