ثورة في تعلم الآلة: تطبيق تعليمات متعددة الوكلاء عبر تصحيح القيمة!

في عالم تعلم الآلة، يعد التعلم المعزز متعدد الوكلاء (Multi-Agent Reinforcement Learning - MARL) أحد المجالات الواعدة، والذي يتطلب التكيف مع التعليمات الطبيعية الخارجية في العديد من التطبيقات الواقعية. إن التعامل مع هذه التعليمات أثناء التفاعل مع الأهداف طويلة الأجل قد يظهر تحديات كبيرة، خاصة عندما تتعارض هذه التعليمات مع السلوك الجاري.

تواجه الأنظمة التقليدية لتعلم الآلة مشكلة حقيقية عند إدخال التعليمات، حيث تؤدي تحديثات بل مان (Bellman updates) إلى تداخل تقديرات القيم عبر سياقات التعليمات المتعددة. وعند تدخل التعليمات، تتسبب هذه المشكلة في قيم غير متسقة، مما يؤثر سلبًا على أداء الأنظمة.

لذا، تم تقديم تقنية جديدة مبتكرة تُعرف باسم تصحيح قيمة الحدث الرئيسي (Macro-Action Value Correction for Instruction Compliance - MAVIC). تقوم MAVIC بتصحيح تحديثات بل مان عند حدود التعليمات، حيث تعيد تعديل الهدف المستلم وتمكن من استعادة القيمة المستمرة ضمن الهدف الحالي.

هذا النهج لا يعدل طريقة التقدير فحسب، بل يوفر أيضًا دقة أعلى في أنظمة تتسم بتغييرات عشوائية في التعليمات، مما يسهم في تحقيق توافق أفضل مع الأهداف ضمن سياسة موحدة.

أظهرت الدراسات أن MAVIC تحقق معدل التزام مرتفع بالتعليمات مع الحفاظ على الأداء الأساسي في بيئات متعددة الوكلاء التعاونية المعقدة. هذه النتائج تعزز من جهود تحسين الاستجابة ودقة الأنظمة في عالم مليء بالتحديات.

ثورة في تعلم الآلة: تطبيق تعليمات متعددة الوكلاء عبر تصحيح القيمة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

كيف أسست OpenAI عالماً آمناً لبرمجة كودكس على ويندوز؟

استكشاف عالم الذكاء الاصطناعي: كود يعيد تعريف معايير الأداء مع BenchJack!

إفتح عالمًا جديدًا من الأمان: اكتشاف أنماط فشل نماذج الرؤية واللغة!