في عالم الذكاء الاصطناعي، يُعد التعاون بين الوكلاء أمرًا حيوياً، خصوصًا في سياق التعلم المعزز المتعدد الوكلاء (Multi-agent Reinforcement Learning - MARL). يعتمد هذا النوع من التعلم على التواصل بين الوكلاء لتخفيف مشكلات المشاهدة الجزئية. ومع ذلك، كانت معظم البروتوكولات الحالية تعتمد على رسائل تعتبر كمتجهات كثيفة عائمة، مما يفقدها نظام هيكلي يعتمد عليه. هذه الفكرة الأساسية تناولتها HiComm، وهي وحدة جديدة مُقترحة للتواصل، تهدف إلى تحسين هذه العملية عبر وضع الرسائل في إطار هيكلي مرتبط بالرؤية الهرمية للمرسل.
تعمل HiComm وفق نموذج مُوجه من قبل المستلم، بحيث يصدر المستلم استفسارًا يُحدد من خلاله التدرج الهرمي، وذلك عبر عملية فك شفرة مكونة من ثلاث مراحل. تبدأ المرحلة الأولى باختيار مجموعة، تليها تحديد المرسل، وأخيرًا اختيار كيان داخل تلك المجموعة، لتعيد الرسالة المميزة الخاصة بذلك الكيان كنص.
هذا الابتكار يُحول التواصل من مجرد نقل معلومات عشوائية إلى استرجاع معلومات هيكلية تعتمد على رؤى المُرسل، مما يُعزز الأداء بشكل كبير.
وتم تطبيق هذا النموذج باستخدام أسلوب Straight-Through Gumbel-Softmax الذي يتيح اختياراً دقيقًا وقابلًا للتفريق. وعلى الرغم من أن حجم الرسائل المتبادلة قد يتقلص، فقد أظهرت التجارب عبر مهام MARL التعاونية أن HiComm تُنافس أو حتى تُفوق الأنظمة الحالية، مع تقليل حجم البيانات المُتبادلة حتى 23 مرة لكل مستلم في كل حلقة.
تطوير ثوري في التعلم المُعزز: HiComm يُحدث ثورة في التواصل بين الوكلاء
تقدم HiComm، وحدة التواصل الجديدة، نهجاً هيكلياً لتحسين التواصل بين الوكلاء في بيئات التعلم المُعزز. هذا الابتكار لا يعزز الفعالية فحسب، بل يقلل أيضًا من حجم البيانات المُتبادلة بشكل مذهل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
