في عالم الذكاء الاصطناعي، يتطلب أداء المهام الوكيلية الطويلة الأمد قدرات معقدة واتخاذ قرارات متتابعة. لكن، كما هو الحال، يواجه تدريب الوكلاء بهذه الأساليب تحديات كبيرة، بسبب مشكلتين رئيسيتين: الأول هو تخصيص الفضل بشكل غير دقيق، حيث يتم إعاقة المكافآت عن الأفعال الصحيحة التي تتم في البداية نظراً للفشل المحتمل في نهاية المهمة، والثانية هي عدم كفاءة العينات، حيث تؤدي المسارات الناجحة النادرة إلى شبه فقدان كامل للإشارات التعليمية.

استجابةً لهذه التحديات، تم تقديم إطار BEACON لتوجيه تعلم السياسات، والذي ينطلق من تسليط الضوء على الهيكل التركيبي للمهام الطويلة الأمد. يضمن BEACON تخصيص الفضل بدقة من خلال تقسيم المسارات عند حدود المعالم، ويستخدم تعديل المكافآت الزمانية ضمن المقاطع لتوزيع الفضل على التقدم الجزئي، كما يحتسب المزايا على مستويات مزدوجة لتفادي تأثير الفشل البعيد على تقييم الأفعال المحلية.

عند الاختبار على بيئات ALFWorld وWebShop وScienceWorld، أثبت BEACON تفوقه المستمر على أساليب التعلم السابقة مثل GRPO وGiGPO. والأهم من ذلك، أنه على المهام الطويلة في ALFWorld، حقق BEACON معدل نجاح مذهلاً قدره 92.9%، مما يقارب ضعف معدل نجاح GRPO البالغ 53.5%. كما تحسنت فعالية استخدام العينات بشكل كبير من 23.7% إلى 82.0%. تجسد هذه النتائج أهمية تخصيص الفضل المدعوم بالمعالم كنموذج فعال لتدريب وكلاء الذكاء الاصطناعي في المهام الطويلة الأمد.

يمكنكم الاطلاع على الكود المُستخدم في الإطار من خلال الرابط التالي: https://github.com/ZJU-REAL/BEACON.