في عالم الذكاء الاصطناعي، لطالما كانت [نماذج العالم](/tag/[نماذج](/tag/نماذج)-العالم) القائمة على العمل الشرطي (action-conditioned world models) متقدمة في [تحقيق](/tag/تحقيق) واقعية بصرية قصيرة الأمد. ومع ذلك، تظل هذه [النماذج](/tag/النماذج) غير موثوقة في التعامل مع الانتقالات الحرجة التي تندرج تحت فئات غير متكررة، وهو ما يؤثر سلبًا على [التخطيط](/tag/التخطيط) والأداء العام للسياسات. لذا، يبدو أن الحاجة ماسة إلى طريقة جديدة لتحسين هذه [النماذج](/tag/النماذج) من خلال [التعلم](/tag/التعلم) من [الأخطاء](/tag/الأخطاء) بدلاً من الاعتماد على [البيانات](/tag/البيانات) السلبية.

في هذا السياق، يقدم الباحثون تحسينًا مبتكرًا يعتمد على ما يعرف بـ "المنهج العدائي المدعوم بالمعايير" (KL-constrained adversarial curriculum). يتضمن هذا المنهج [تدريب](/tag/تدريب) [نموذج](/tag/نموذج) على مكشوفات عالية الخطأ من خلال نهج يحافظ على قرب النموذج من [سلوك](/tag/سلوك) [البيانات](/tag/البيانات) المتاحة. تتلقى [النماذج](/tag/النماذج) التي تُدرب وفقًا لهذه الطريقة تنقيحات مستمرة، مما يحول [الأخطاء](/tag/الأخطاء) النادرة إلى [إشارات](/tag/إشارات) [تعلم](/tag/تعلم) ثابتة.

لتسليط الضوء على الجوانب التي لم تُعالج بعد، تعتمد [التقنية](/tag/التقنية) على استخدام "[ذاكرة](/tag/ذاكرة) المسارات العدائية ذات الأولوية" (Prioritized Adversarial Trajectory - PAT buffer)، التي تقوم بإعادة [تصنيف](/tag/تصنيف) المسارات بناءً على [خطأ](/tag/خطأ) التوقع وموثوقية الإجراءات. هذه الآلية تركز [التدريب](/tag/التدريب) على حالات الفشل التي لم تُحل بدلاً من إعادة زيارة الحالات التي تمت معالجتها بالفعل.

تُطبق هذه المنهجية في إطار [MineRL](/tag/minerl) ويتم [تقييم](/tag/تقييم) نتائجها على مسارات خارج التوزيع المُحتفظ بها. تظهر النتائج أن PROWL تُحسن [موثوقية](/tag/موثوقية) النموذج مقارنة بالنماذج التي تم تدريبها فقط على [البيانات](/tag/البيانات) السلبية. كما يكشف [البحث](/tag/البحث) عن [سلوكيات](/tag/سلوكيات) تلاعب في [المكافآت](/tag/المكافآت) تحت [قيود](/tag/قيود) سلوكية ضعيفة، مما يبرز أهمية التوازن بين [استكشاف](/tag/استكشاف) [الأخطاء](/tag/الأخطاء) واختبار السلوك.

في ختام هذا الابتكار، تشير النتائج إلى أن [نماذج العالم](/tag/[نماذج](/tag/نماذج)-العالم) تحتاج إلى كل من [البيانات](/tag/البيانات) الأكبر حجمًا والتوليد الانتقائي للمعلومات اللازمة للتدريب.