تظل قضية الاستكشاف الفعال في تعلم تعزيز (Reinforcement Learning) تحديًا مستمرًا خاصةً في بيئات تحتوي على مساحات حالات وإجراءات شاسعة. بينما يزداد الاهتمام بالجوانب مثل التجديد والتنوع أو عدم اليقين، فإن الجهود الإضافية الناتجة عن الاستكشاف دون توجيه صحيح تمثل مشكلة واقعية للمجتمع العلمي.
لتجاوز هذه التحديات، قدم الباحثون نهجًا جديدًا يسمى LEMAE، والذي يهدف إلى استخدام التوجيه المستند إلى مهمة من نموذج لغوي ضخم (LLM) لتعزيز استكشاف الوكلاء بشكل فعال. من خلال توظيف المعرفة اللغوية، يتم تحويل المعلومات إلى حالات مفاتيح رمزية تعتبر حاسمة لتحقيق المهام المطلوبة بشكل انتقائي وبتكاليف استدلال منخفضة.
لإطلاق العنان لقوة حالات المفاتيح، تم تصميم نظام مكافآت داخلية قائم على الفضاءات الفرعية (Subspace-based Hindsight Intrinsic Reward - SHIR) الذي يوجه الوكلاء نحو هذه الحالات، مما يزيد من كثافة المكافأة. بالإضافة إلى ذلك، تم بناء شجرة ذاكرة حالات المفاتيح (Key State Memory Tree - KSMT) لتتبع الانتقالات بين هذه الحالات في مهمة معينة، مما يسهل استكشافًا منظمًا.
والنتيجة واضحة: من خلال تقليل الاستكشافات المهدرة، يتفوق LEMAE على الأساليب الحالية (SOTA) في المعايير الصعبة مثل SMAC وMPE، محققًا تسريعًا يصل إلى عشرة أضعاف في بعض السيناريوهات.
بهذا الإنجاز الجديد، يبدو أن مستقبل الاستكشاف المتعدد الوكلاء يعد بمزيد من الفعالية والتطور. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!
اكتشف الأسرار: نماذج اللغات تضبط حالات المفاتيح لاستكشاف متعدد الوكلاء بكفاءة!
يقدم البحث الجديد نهجًا مبتكرًا لاستكشاف الأسطح متعددة الوكلاء عن طريق استخدام نماذج اللغات الضخمة (LLMs) لتحديد حالات المفاتيح. هذا التحول يعد بزيادة فعالية الاستكشاف وتقليل الجهود المهدرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
