في عالم الذكاء الاصطناعي، تُعتبر ألعاب المعلومات غير التامة (Imperfect-Information Games) تحديًا كبيرًا، حيث يتعين على اللاعبين اتخاذ قرارات دون رؤية كاملة للحالة الحقيقية للعبة. بينما حقق النموذج الشهير AlphaZero نجاحًا ملحوظًا في ألعاب المعلومات التامة، يبقى التحدي في تطبيقه على الألعاب ذات المعلومات غير التامة مستمرًا.

في ورقة بحثية جديدة، تم تقديم تقنية مبتكرة تُدعى تقييم السياسات المجمعة من عدة حالات (Multi-State Aggregated Policy Evaluation) والمعروفة اختصارًا بـ MAPLE. تهدف MAPLE إلى معالجة العيوب الموجودة في الطرق المعتمدة حاليًا مثل عينة مونت كارلو للمعلومات التامة (Perfect Information Monte Carlo) التي تعاني من مشاكل توحد الاستراتيجيات، وأيضًا شجرة البحث مونت كارلو لمجموعة المعلومات (Information Set Monte Carlo Tree Search) التي تتطلب تكاليف حسابية مرتفعة عند دمجها مع الشبكات العصبية.

تقنية MAPLE تدمج تقييمات السياسات والقيم من حالات عالمية متعددة ضمن شجرة بحث واحدة، مما يوفر التوازن بين فعالية تكاليفه ونتائج يتوقع أن تكون مبهرة. بالإضافة إلى ذلك، تم تضمين استراتيجية تعتمد على نماذج شبيهة (Siamese-based sampling) لاختيار حالات عالمية مفيدة من مجموعة المعلومات.

أظهرت التجارب التي أُجريت على ألعاب Phantom Go وDark Hex أن MAPLE تتفوق بشكل كبير على نموذج AlphaZero القائم على PIMC، محققة تحسنًا يصل إلى 291 و136 نقطة في تقييم Elo على التوالي. تُبرز هذه النتائج فعالية MAPLE كنموذج ممتاز لتعلم أسلوب AlphaZero في الألعاب ذات المعلومات غير التامة، مما يبشر بتغيرات جذرية في مستقبل تطوير ألعاب الذكاء الاصطناعي!

ما رأيكم في هذه التقنية الجديدة؟ هل تعتبرونها خطوة مهمة نحو تطوير نماذج ذكاء اصطناعي أكثر ذكاءً؟ شاركونا آراءكم في التعليقات!