في عالم [الألعاب](/tag/الألعاب) الذهنية، يظهر [البحث](/tag/البحث) عن طرق جديدة لتدريب الآلات على الفوز بألعاب تتطلب [استراتيجية](/tag/استراتيجية) ذهنية [التفكير](/tag/التفكير). من بين هذه الألعاب، تأتي لعبة [شينابسن](/tag/شينابسن) الشهيرة التي أثارت اهتمام [الباحثين](/tag/الباحثين) في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي). تسعى هذه [الدراسة](/tag/الدراسة) الجديدة إلى [استكشاف](/tag/استكشاف) ما إذا كانت [الوكلاء](/tag/الوكلاء) الذين يعتمدون على [الشبكات العصبية](/tag/[الشبكات](/tag/الشبكات)-العصبية) السطحية يمكنهم إتقان هذه اللعبة والتفوق على الأعداء القويين، مثل RdeepBot، الذي يعتمد على [نماذج](/tag/نماذج) [البحث المتقدم](/tag/[البحث](/tag/البحث)-المتقدم) وطرق [عينة](/tag/عينة) [مونت كارلو](/tag/مونت-كارلو).
قام الباحثون بتصميم مجموعه من [التجارب](/tag/التجارب) تتدرج في التعقيد، حيث بدأوا بتقييم [وكيل](/tag/وكيل) [التعلم](/tag/التعلم) الخاضع للإشراف (MLPBot) المدرب على [بيانات](/tag/بيانات) إعادة التشغيل. ثم انتقلوا إلى الوكيل القائم على [التعلم التعزيزي](/tag/[التعلم](/tag/التعلم)-التعزيزي) (RLBot) الذي استخدم نفس العمارة السطحية وكان مدربًا من خلال [تحديثات](/tag/تحديثات) [مونت كارلو](/tag/مونت-كارلو) غير المتزامنة وإعادة تجربة الخبرات.
بيّنت النتائج أن التقليد في [التعلم](/tag/التعلم) الخاضع للإشراف لم يكن كافيًا لتفوق على خصوم RdeepBot القويين، بينما أنتج [التعلم التعزيزي](/tag/[التعلم](/tag/التعلم)-التعزيزي) وكلاءً أقوى بكثير. وعندما تم التركيز على عمق [التعلم](/tag/التعلم) في RdeepBot، كانت أفضل النتائج تتحقق عند الجمع بين دالة القيمة المتعلمة ونظام [البحث المتقدم](/tag/[البحث](/tag/البحث)-المتقدم) خلال اللعب، مما سمح لـ RLBot بتحقيق معدلات فوز أعلى بشكل ملحوظ ضد أقوى منافس تم تقييمه.
لكن، في الإعداد القائم على العينة، كانت المكاسب مشروطة بشكل أكبر: حيث ظهرت أفضل نتائج [الأداء](/tag/الأداء) عند معلمات [تدريب](/tag/تدريب) [عدد](/tag/عدد) العينات أقل نسبيًا بدلاً من أن تزيد بشكل موحد مع [قوة](/tag/قوة) العينة. تعكس هذه النتائج أهمية اختيار الواحدة المناسبة من التقنيات عند التعامل مع [استراتيجيات](/tag/استراتيجيات) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في [الألعاب](/tag/الألعاب) المعقدة.
من التقليد إلى التفاعل: كيفية إتقان لعبة شينابسن باستخدام التعلم التعزيزي السطحي
يستعرض هذا البحث إمكانية استخدام الشبكات العصبية البسيطة لإتقان لعبة البطاقات شينابسن. النتائج تؤكد أن التعلم التعزيزي يوفر أداءً أفضل بكثير من التقليد في مواجهة لاعبين أقوياء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
