تواجه عمليات [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) ([Reinforcement Learning](/tag/reinforcement-learning)) [تحديات](/tag/تحديات) جذرية عند معالجة المهام التي تتطلب أهدافًا بعيدة الزمن، وخاصةً عندما تكون [المكافآت](/tag/المكافآت) نادرة. على الرغم من وجود طرق هرمية (Hierarchical Methods) تعتمد على [الرسم البياني](/tag/الرسم-البياني) (Graph-based Methods) كحلول جزئية، إلا أن اعتمادها على [تقنيات](/tag/تقنيات) إعادة التسمية في الماضي (Hindsight Relabeling) لا ينجح دائمًا في تصحيح عدم القابلية لتحقيق الأهداف الفرعية، مما يؤدي إلى فعالية [التخطيط](/tag/التخطيط) على مستوى عالٍ منخفضة.
لتجاوز هذه العوائق، تم [اقتراح](/tag/اقتراح) إطار [عمل](/tag/عمل) [جديد](/tag/جديد) يُعرف بتنفيذ [الأهداف الفرعية](/tag/الأهداف-الفرعية) بدقة (Strict Subgoal Execution - SSE). يعتمد هذا الإطار على [التكنولوجيا](/tag/التكنولوجيا) الرسومية، حيث يتضمن [تقنية](/tag/تقنية) [استرجاع](/tag/استرجاع) [التجارب](/tag/التجارب) الحدودية (Frontier Experience Replay - FER) لتفريق [الأهداف الفرعية](/tag/الأهداف-الفرعية) غير القابلة للتحقيق عن الأهداف المسموح بها، مما يسهل [اتخاذ القرارات](/tag/اتخاذ-القرارات) على مستوى عالٍ.
تقوم [تقنية](/tag/تقنية) FER بتحديد الحدود القابلة للوصول باستخدام [تحولات](/tag/تحولات) الفشل والنجاح الجزئي، مما يساعد في [التعرف على الأهداف](/tag/[التعرف](/tag/التعرف)-على-الأهداف) الفرعية غير الموثوقة، وزيادة [موثوقية](/tag/موثوقية) الأهداف، وتقليل القرارات غير الضرورية على المستوى العالي. بالإضافة إلى ذلك، يوفر نهج SSE [سياسة](/tag/سياسة) [استكشاف](/tag/استكشاف) مفصولة لتغطية المناطق غير المكتشفة من مساحة الأهداف، ويستخدم [تحسين المسارات](/tag/[تحسين](/tag/تحسين)-المسارات) (Path Refinement) لضبط [تكاليف](/tag/تكاليف) الحواف استنادًا إلى الفشل الملحوظ على المستوى المنخفض.
أظهرت النتائج التجريبية [عبر](/tag/عبر) [معايير](/tag/معايير) متعددة الأفق الطويلة أن SSE يتفوق باستمرار على الطرق الحالية الموجهة [نحو](/tag/نحو) الأهداف والهرمية من حيث [الكفاءة](/tag/الكفاءة) ونسبة النجاح. يمكنكم الاطلاع على الشيفرة المصدرية المستخدمة في هذا [البحث](/tag/البحث) من خلال [تجربة SSE](https://jaebak1996.github.io/SSE/).
إحداث ثورة في التعلم المعزز: تنفيذ الأهداف الفرعية بدقة لتحقيق التخطيط المثالي
تقديم نهج جديد يغير قواعد اللعبة في التعلم المعزز، من خلال تحسين التخطيط بعيد المدى باستخدام تنفيذ الأهداف الفرعية بدقة. هذه الطريقة تعزز كفاءة ونجاح تحقيق أهداف معقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
