تطور الذكاء الاصطناعي والبحث الشجري من خلال استراتيجية مونت كارلو للبحث (Monte Carlo Tree Search - MCTS) أثبت تأثيره البارز في مجالات التعلم المعزز (Reinforcement Learning - RL). تعتبر هذه الاستراتيجية محورية في تحسين فعالية التعلم في المهام التي تتطلب استدلالًا طويل الأمد، كما يتضح من خوارزميات AlphaZero.
يكمن جوهر MCTS في استراتيجية البحث، التي تحكمها سياسة شجرية تستند إلى حد الثقة العليا (Upper Confidence Bound - UCB) المطبقة على الأشجار (Upper Confidence Trees - UCT). عنصر حاسم في نجاح نظام AlphaZero هو إدخال معامل أولي في السياسة الشجرية المبنية على UCB1، والمعروفة بـ PUCT، مما يعزز من فعالية الاستكشاف ويُسرع من عملية التدريب.
في حين توجد العديد من بدائل UCB التي تتمتع بضمانات نظرية أقوى من UCB1، إلا أن توسيعها لتشمل UCT المستند إلى الأسبقية كان تحديًا. إذ انطلقت PUCT من التجربة بدلاً من المبادئ الأولية. ولكن مؤخرًا، تم إعادة تأطير PUCT في إطار مشكلة تحسين السياسة المنتظمة (Regularized Policy Optimization - RPO).
استنادًا إلى هذه الفكرة، قدمنا منهجية جديدة تُعرف بـ Inverse-RPO، والتي تتيح اشتقاق UCTs المستندة إلى الأولويات من فئة واسعة من UCBs الخالية من الأسبقية. وبعد تطبيق هذه الطريقة على UCB-V المستشعر للفرق، حصلنا على سياسات شجرية جديدة تأخذ في الاعتبار تقديرات الفرق أثناء البحث.
أظهرت التجارب أن هذه السياسات الجديدة تفوقت على PUCT عبر معايير متعددة دون تكبد أي تكاليف إضافية من الناحية الحسابية. كما قمنا بتقديم امتداد لمكتبة mctx التي تدعم UCTs المستشعرة للفرق، مُظهرين أن التغييرات البرمجية المطلوبة بسيطة وتهدف إلى تسهيل المزيد من الأبحاث في مجال UCTs المبنية على الأولويات. يمكنكم الاطلاع على الشيفرة البرمجية عبر [github.com/Max-We/inverse-rpo].
استراتيجيات جديدة في البحث الشجري المستند إلى فرق الاستكشاف: تعزيز فعالية التعلم الذاتي!
تمثل استراتيجية البحث الشجري المستند إلى فرق الاستكشاف تطويرًا هامًا في مجال التعلم المعزز، حيث تساهم في تحسين فعالية التدريب دون تكاليف إضافية. التجارب أظهرت تفوق هذه الاستراتيجية الجديدة على الأساليب التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←# Monte Carlo Tree Search# Reinforcement Learning# Artificial Intelligence# Policy Optimization# UCB
جاري تحميل التفاعلات...
