في ظل النمو السريع لقدرات نماذج اللغة المرئية (VLMs)، أصبحت إمكانية توسيع هذه النماذج لتشمل مهام اتخاذ القرار التفاعلية كألعاب الفيديو من الحدود الواعدة في عالم الذكاء الاصطناعي. التعلم المعزز (Reinforcement Learning) قدّم طريقة جديدة لتحسين أداء VLMs في بيئات تتطلب تفاعلات طويلة الأمد، مثل Super Mario Land، حيث يحتاج اللاعب إلى أكثر من 100 خطوة للتفاعل مع البيئة.
تخضع النماذج الموجودة عادةً لعملية تعليم ضخمة تعتمد على مسارات بشرية (Supervised Fine-Tuning)، أو تستخدم التعلم المعزز في بيئات قصيرة المدى، مما يحد من فعاليتها. لكن في هذا البحث، يتم دراسة كيفية تطبيق التعلم المعزز لنماذج VLMs لتحقيق اتخاذ قرارات فعّالة عبر أفق زمني طويل.
تم تطوير نموذج أوديسيوس، وهو إطار عمل مفتوح يسعى لتحقيق تقدم ملموس في مستويات متعددة من اللعبة، مع تعزيز الاستقرار والكفاءة. تعتمد الطريقة الجديدة على استخدام ناقد (critic) خفيف الوزن على مستوى التحول، مما يحسن بشكل كبير من استقرار التدريب وكفاءة العينة مقارنة بالطرق التقليدية الخالية من الناقد.
تظهر النتائج الأولية أن استخدام نماذج VLMs المدربة مسبقًا يعزز من كفاءة العينة خلال مرحلة التعلم المعزز، مما يقلل الحاجة إلى التصميم اليدوي، مثل الهندسة المتعلقة بتحركات اللاعب. أكد الباحثون أن هذه المقاربة الجديدة تحقق تحسينات كبيرة في مستوى الأداء، مع نتائج ملحوظة تحت ظروف التعميم في اللعبة وخارجها.
نعتمد على العوامل الرئيسية التي تجعل التعلم المعزز مستقراً وفعّالاً في البيئات متعددة الأنماط، مما يوفر دليلاً عملياً لتطوير VLMs كوكيل يتفاعل مع العالم. تسلِّط هذه الدراسة الضوء على قوة ومرونة الذكاء الاصطناعي عند مواجهة تحديات اتخاذ القرار في الألعاب، ويبدو أن المستقبل يعد بالكثير.
أوديسيوس: كيف يمكن لنماذج اللغة المرئية أن تتجاوز تحديات اتخاذ القرار في الألعاب مع التعلم المعزز!
تقدم دراسة جديدة مفهوم أوديسيوس، وهي إطار عمل مفتوح لتدريب نماذج اللغة المرئية (VLMs) لتحسين اتخاذ القرار في الألعاب. تتيح هذه التقنية التفاعل الفعال في حالات متعددة من خلال التعلم المعزز.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
