في عالم الذكاء الاصطناعي، لطالما كانت [نماذج العالم](/tag/[نماذج](/tag/نماذج)-العالم) القائمة على العمل الشرطي (action-conditioned world models) متقدمة في [تحقيق](/tag/تحقيق) واقعية بصرية قصيرة الأمد. ومع ذلك، تظل هذه [النماذج](/tag/النماذج) غير موثوقة في التعامل مع الانتقالات الحرجة التي تندرج تحت فئات غير متكررة، وهو ما يؤثر سلبًا على [التخطيط](/tag/التخطيط) والأداء العام للسياسات. لذا، يبدو أن الحاجة ماسة إلى طريقة جديدة لتحسين هذه [النماذج](/tag/النماذج) من خلال [التعلم](/tag/التعلم) من [الأخطاء](/tag/الأخطاء) بدلاً من الاعتماد على [البيانات](/tag/البيانات) السلبية.
في هذا السياق، يقدم الباحثون تحسينًا مبتكرًا يعتمد على ما يعرف بـ "المنهج العدائي المدعوم بالمعايير" (KL-constrained adversarial curriculum). يتضمن هذا المنهج [تدريب](/tag/تدريب) [نموذج](/tag/نموذج) على مكشوفات عالية الخطأ من خلال نهج يحافظ على قرب النموذج من [سلوك](/tag/سلوك) [البيانات](/tag/البيانات) المتاحة. تتلقى [النماذج](/tag/النماذج) التي تُدرب وفقًا لهذه الطريقة تنقيحات مستمرة، مما يحول [الأخطاء](/tag/الأخطاء) النادرة إلى [إشارات](/tag/إشارات) [تعلم](/tag/تعلم) ثابتة.
لتسليط الضوء على الجوانب التي لم تُعالج بعد، تعتمد [التقنية](/tag/التقنية) على استخدام "[ذاكرة](/tag/ذاكرة) المسارات العدائية ذات الأولوية" (Prioritized Adversarial Trajectory - PAT buffer)، التي تقوم بإعادة [تصنيف](/tag/تصنيف) المسارات بناءً على [خطأ](/tag/خطأ) التوقع وموثوقية الإجراءات. هذه الآلية تركز [التدريب](/tag/التدريب) على حالات الفشل التي لم تُحل بدلاً من إعادة زيارة الحالات التي تمت معالجتها بالفعل.
تُطبق هذه المنهجية في إطار [MineRL](/tag/minerl) ويتم [تقييم](/tag/تقييم) نتائجها على مسارات خارج التوزيع المُحتفظ بها. تظهر النتائج أن PROWL تُحسن [موثوقية](/tag/موثوقية) النموذج مقارنة بالنماذج التي تم تدريبها فقط على [البيانات](/tag/البيانات) السلبية. كما يكشف [البحث](/tag/البحث) عن [سلوكيات](/tag/سلوكيات) تلاعب في [المكافآت](/tag/المكافآت) تحت [قيود](/tag/قيود) سلوكية ضعيفة، مما يبرز أهمية التوازن بين [استكشاف](/tag/استكشاف) [الأخطاء](/tag/الأخطاء) واختبار السلوك.
في ختام هذا الابتكار، تشير النتائج إلى أن [نماذج العالم](/tag/[نماذج](/tag/نماذج)-العالم) تحتاج إلى كل من [البيانات](/tag/البيانات) الأكبر حجمًا والتوليد الانتقائي للمعلومات اللازمة للتدريب.
PROWL: تحسين تقني متقدم لتجاوز التحديات في نماذج العالم الذكي
تقدم تقنية PROWL مقاربة جديدة لتحسين نماذج العالم عبر تدريب مستند إلى التعلم من الأخطاء النادرة. هذه التقنية تعزز موثوقية نماذج الذكاء الاصطناعي من خلال استهداف نقاط الفشل الحرجة بدلاً من الاعتماد على البيانات التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
