في عالم الذكاء الاصطناعي، لطالما كانت نماذج العالم القائمة على العمل الشرطي (action-conditioned world models) متقدمة في تحقيق واقعية بصرية قصيرة الأمد. ومع ذلك، تظل هذه النماذج غير موثوقة في التعامل مع الانتقالات الحرجة التي تندرج تحت فئات غير متكررة، وهو ما يؤثر سلبًا على التخطيط والأداء العام للسياسات. لذا، يبدو أن الحاجة ماسة إلى طريقة جديدة لتحسين هذه النماذج من خلال التعلم من الأخطاء بدلاً من الاعتماد على البيانات السلبية.
في هذا السياق، يقدم الباحثون تحسينًا مبتكرًا يعتمد على ما يعرف بـ "المنهج العدائي المدعوم بالمعايير" (KL-constrained adversarial curriculum). يتضمن هذا المنهج تدريب نموذج على مكشوفات عالية الخطأ من خلال نهج يحافظ على قرب النموذج من سلوك البيانات المتاحة. تتلقى النماذج التي تُدرب وفقًا لهذه الطريقة تنقيحات مستمرة، مما يحول الأخطاء النادرة إلى إشارات تعلم ثابتة.
لتسليط الضوء على الجوانب التي لم تُعالج بعد، تعتمد التقنية على استخدام "ذاكرة المسارات العدائية ذات الأولوية" (Prioritized Adversarial Trajectory - PAT buffer)، التي تقوم بإعادة تصنيف المسارات بناءً على خطأ التوقع وموثوقية الإجراءات. هذه الآلية تركز التدريب على حالات الفشل التي لم تُحل بدلاً من إعادة زيارة الحالات التي تمت معالجتها بالفعل.
تُطبق هذه المنهجية في إطار MineRL ويتم تقييم نتائجها على مسارات خارج التوزيع المُحتفظ بها. تظهر النتائج أن PROWL تُحسن موثوقية النموذج مقارنة بالنماذج التي تم تدريبها فقط على البيانات السلبية. كما يكشف البحث عن سلوكيات تلاعب في المكافآت تحت قيود سلوكية ضعيفة، مما يبرز أهمية التوازن بين استكشاف الأخطاء واختبار السلوك.
في ختام هذا الابتكار، تشير النتائج إلى أن نماذج العالم تحتاج إلى كل من البيانات الأكبر حجمًا والتوليد الانتقائي للمعلومات اللازمة للتدريب.
PROWL: تحسين تقني متقدم لتجاوز التحديات في نماذج العالم الذكي
تقدم تقنية PROWL مقاربة جديدة لتحسين نماذج العالم عبر تدريب مستند إلى التعلم من الأخطاء النادرة. هذه التقنية تعزز موثوقية نماذج الذكاء الاصطناعي من خلال استهداف نقاط الفشل الحرجة بدلاً من الاعتماد على البيانات التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
