استراتيجيات جديدة في البحث الشجري المستند إلى فرق الاستكشاف: تعزيز فعالية التعلم الذاتي!

Q: ما هو موضوع مقال "استراتيجيات جديدة في البحث الشجري المستند إلى فرق الاستكشاف: تعزيز فعالية التعلم الذاتي!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "استراتيجيات جديدة في البحث الشجري المستند إلى فرق الاستكشاف: تعزيز فعالية التعلم الذاتي!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

تطور الذكاء الاصطناعي والبحث الشجري من خلال استراتيجية مونت كارلو للبحث (Monte Carlo Tree Search - MCTS) أثبت تأثيره البارز في مجالات التعلم المعزز (Reinforcement Learning - RL). تعتبر هذه الاستراتيجية محورية في تحسين فعالية التعلم في المهام التي تتطلب استدلالًا طويل الأمد، كما يتضح من خوارزميات AlphaZero.

يكمن جوهر MCTS في استراتيجية البحث، التي تحكمها سياسة شجرية تستند إلى حد الثقة العليا (Upper Confidence Bound - UCB) المطبقة على الأشجار (Upper Confidence Trees - UCT). عنصر حاسم في نجاح نظام AlphaZero هو إدخال معامل أولي في السياسة الشجرية المبنية على UCB1، والمعروفة بـ PUCT، مما يعزز من فعالية الاستكشاف ويُسرع من عملية التدريب.

في حين توجد العديد من بدائل UCB التي تتمتع بضمانات نظرية أقوى من UCB1، إلا أن توسيعها لتشمل UCT المستند إلى الأسبقية كان تحديًا. إذ انطلقت PUCT من التجربة بدلاً من المبادئ الأولية. ولكن مؤخرًا، تم إعادة تأطير PUCT في إطار مشكلة تحسين السياسة المنتظمة (Regularized Policy Optimization - RPO).

استنادًا إلى هذه الفكرة، قدمنا منهجية جديدة تُعرف بـ Inverse-RPO، والتي تتيح اشتقاق UCTs المستندة إلى الأولويات من فئة واسعة من UCBs الخالية من الأسبقية. وبعد تطبيق هذه الطريقة على UCB-V المستشعر للفرق، حصلنا على سياسات شجرية جديدة تأخذ في الاعتبار تقديرات الفرق أثناء البحث.

أظهرت التجارب أن هذه السياسات الجديدة تفوقت على PUCT عبر معايير متعددة دون تكبد أي تكاليف إضافية من الناحية الحسابية. كما قمنا بتقديم امتداد لمكتبة mctx التي تدعم UCTs المستشعرة للفرق، مُظهرين أن التغييرات البرمجية المطلوبة بسيطة وتهدف إلى تسهيل المزيد من الأبحاث في مجال UCTs المبنية على الأولويات. يمكنكم الاطلاع على الشيفرة البرمجية عبر [github.com/Max-We/inverse-rpo].

استراتيجيات جديدة في البحث الشجري المستند إلى فرق الاستكشاف: تعزيز فعالية التعلم الذاتي!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

ثورة جديدة في عالم الحوسبة: استثمار ضخم ينذر بإطلاق عملاق الحوسبة التالي

ثورة في العلاج العصبي: جهاز جديد يُزرع في دماغ الإنسان من شركة ماكس هوداك