في عصر يتسارع فيه التطور في مجالات الذكاء الاصطناعي، تتجلى التحديات في مجالات التعلم المعزز (Reinforcement Learning) بشكل واضح، خاصةً في المهمات الخاصة بالتحكم المستمر (Continuous Control). في هذه السياقات المعقدة، غالبًا ما تتزامن الأفعال المثلى مع توزيعات عائدات متعددة وذات شكوك، مما يجعل التقدير الدقيق للقيم (Value Estimation) واستكشاف الأفعال المتعددة أمرًا في غاية الصعوبة.
تستخدم الطرق الحالية لتقدير القيم توزيعات غاوسية أحادية (Unimodal Gaussians) مما يقيّد القدرة التعبيرية ويؤدي إلى تقديرات متحيزة. ورغم أن السياسات التوليدية (Generative Policies) الحديثة يمكن أن تمثل أفعالًا متعددة، إلا أنها غالبًا ما تنهار إلى عدد قليل من النماذج ولا تستكشف مناطق عالية القيمة من فضاء الأفعال بالشكل الكافي.
استجابة لهذه التحديات، نقدم نموذج Dual-Flow RL، وهو إطار موحد يجمع بين نموذج توزيع العائد المستمر (Continuous Return Distribution) ونموذج توزيع السياسات المتعددة النماذج (Multimodal Policy Distribution) باستخدام تقنية مواءمة التدفق الشرطي (Conditional Flow Matching - CFM). تضمن هذه التصميمات تقدير قيم موثوق ودعماً للاستكشاف المستمر والمتعدد النماذج.
لتعزيز الاستكشاف أكثر، قمنا بإدخال منظم استكشاف متغير الإنتروبيا والتغاير (Entropy-Covariance Exploration Regulator - ECER)، الذي يمكّن من تنظيم استكشاف يعتمد على الحالة من خلال الاستفادة من إنتروبيا السياسة وتغاير عدم اليقين في الأفعال (Action-Uncertainty). أظهرت التجارب على مجموعة DeepMind Control وHumanoid-Bench أن نموذج Dual-Flow RL يحقق أداءً رائداً في معظم المهام، متفوقًا بشكل ملحوظ على الطرق السابقة المعتمدة على الانتشار والتدفق.
إن هذه التطورات تقدم أفكارًا جديدة حول كيفية تحسين التعلم الآلي وتوسيع نطاقه ليشمل تحديات أكثر تعقيدًا. هل أنتم مستعدون لاستكشاف المزيد من مجالات الذكاء الاصطناعي؟ شاركونا آراءكم وتجاربكم في التعليقات!
تعزيز التعلم المعزز: اكتشاف الأفعال المتعددة مع نموذج Dual-Flow الجديد
تمثل تقنيات التعلم المعزز تحديات كبيرة في التحكم المستمر، ومع ذلك، يحقق نموذج Dual-Flow RL نتائج مبتكرة من خلال تحسين استكشاف الأفعال المتعددة. اكتشف كيف يمكن لهذا النموذج تحويل مجالات الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
