في عالم الألعاب الذهنية، يظهر البحث عن طرق جديدة لتدريب الآلات على الفوز بألعاب تتطلب استراتيجية ذهنية التفكير. من بين هذه الألعاب، تأتي لعبة شينابسن الشهيرة التي أثارت اهتمام الباحثين في مجال الذكاء الاصطناعي. تسعى هذه الدراسة الجديدة إلى استكشاف ما إذا كانت الوكلاء الذين يعتمدون على الشبكات العصبية السطحية يمكنهم إتقان هذه اللعبة والتفوق على الأعداء القويين، مثل RdeepBot، الذي يعتمد على نماذج البحث المتقدم وطرق عينة مونت كارلو.

قام الباحثون بتصميم مجموعه من التجارب تتدرج في التعقيد، حيث بدأوا بتقييم وكيل التعلم الخاضع للإشراف (MLPBot) المدرب على بيانات إعادة التشغيل. ثم انتقلوا إلى الوكيل القائم على التعلم التعزيزي (RLBot) الذي استخدم نفس العمارة السطحية وكان مدربًا من خلال تحديثات مونت كارلو غير المتزامنة وإعادة تجربة الخبرات.

بيّنت النتائج أن التقليد في التعلم الخاضع للإشراف لم يكن كافيًا لتفوق على خصوم RdeepBot القويين، بينما أنتج التعلم التعزيزي وكلاءً أقوى بكثير. وعندما تم التركيز على عمق التعلم في RdeepBot، كانت أفضل النتائج تتحقق عند الجمع بين دالة القيمة المتعلمة ونظام البحث المتقدم خلال اللعب، مما سمح لـ RLBot بتحقيق معدلات فوز أعلى بشكل ملحوظ ضد أقوى منافس تم تقييمه.

لكن، في الإعداد القائم على العينة، كانت المكاسب مشروطة بشكل أكبر: حيث ظهرت أفضل نتائج الأداء عند معلمات تدريب عدد العينات أقل نسبيًا بدلاً من أن تزيد بشكل موحد مع قوة العينة. تعكس هذه النتائج أهمية اختيار الواحدة المناسبة من التقنيات عند التعامل مع استراتيجيات الذكاء الاصطناعي في الألعاب المعقدة.