في عالم [الألعاب](/tag/الألعاب) الذهنية، يظهر [البحث](/tag/البحث) عن طرق جديدة لتدريب الآلات على الفوز بألعاب تتطلب [استراتيجية](/tag/استراتيجية) ذهنية [التفكير](/tag/التفكير). من بين هذه الألعاب، تأتي لعبة [شينابسن](/tag/شينابسن) الشهيرة التي أثارت اهتمام [الباحثين](/tag/الباحثين) في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي). تسعى هذه [الدراسة](/tag/الدراسة) الجديدة إلى [استكشاف](/tag/استكشاف) ما إذا كانت [الوكلاء](/tag/الوكلاء) الذين يعتمدون على [الشبكات العصبية](/tag/[الشبكات](/tag/الشبكات)-العصبية) السطحية يمكنهم إتقان هذه اللعبة والتفوق على الأعداء القويين، مثل RdeepBot، الذي يعتمد على [نماذج](/tag/نماذج) [البحث المتقدم](/tag/[البحث](/tag/البحث)-المتقدم) وطرق [عينة](/tag/عينة) [مونت كارلو](/tag/مونت-كارلو).

قام الباحثون بتصميم مجموعه من [التجارب](/tag/التجارب) تتدرج في التعقيد، حيث بدأوا بتقييم [وكيل](/tag/وكيل) [التعلم](/tag/التعلم) الخاضع للإشراف (MLPBot) المدرب على [بيانات](/tag/بيانات) إعادة التشغيل. ثم انتقلوا إلى الوكيل القائم على [التعلم التعزيزي](/tag/[التعلم](/tag/التعلم)-التعزيزي) (RLBot) الذي استخدم نفس العمارة السطحية وكان مدربًا من خلال [تحديثات](/tag/تحديثات) [مونت كارلو](/tag/مونت-كارلو) غير المتزامنة وإعادة تجربة الخبرات.

بيّنت النتائج أن التقليد في [التعلم](/tag/التعلم) الخاضع للإشراف لم يكن كافيًا لتفوق على خصوم RdeepBot القويين، بينما أنتج [التعلم التعزيزي](/tag/[التعلم](/tag/التعلم)-التعزيزي) وكلاءً أقوى بكثير. وعندما تم التركيز على عمق [التعلم](/tag/التعلم) في RdeepBot، كانت أفضل النتائج تتحقق عند الجمع بين دالة القيمة المتعلمة ونظام [البحث المتقدم](/tag/[البحث](/tag/البحث)-المتقدم) خلال اللعب، مما سمح لـ RLBot بتحقيق معدلات فوز أعلى بشكل ملحوظ ضد أقوى منافس تم تقييمه.

لكن، في الإعداد القائم على العينة، كانت المكاسب مشروطة بشكل أكبر: حيث ظهرت أفضل نتائج [الأداء](/tag/الأداء) عند معلمات [تدريب](/tag/تدريب) [عدد](/tag/عدد) العينات أقل نسبيًا بدلاً من أن تزيد بشكل موحد مع [قوة](/tag/قوة) العينة. تعكس هذه النتائج أهمية اختيار الواحدة المناسبة من التقنيات عند التعامل مع [استراتيجيات](/tag/استراتيجيات) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في [الألعاب](/tag/الألعاب) المعقدة.