🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

سعر جنون الشك: كيف تؤثر المخاطر على التعاون في تعلم التعزيز متعدد الوكلاء المتغير

استكشف زيادة عدم استقرار التعاون بين الوكلاء أثناء التعلم في بيئات غير ثابتة وكيف يمكن معالجة هذه المشكلة من خلال فهم دقيق للجهود التعاونية. تقنيات جديدة تحوّل المخاوف من عدم اليقين إلى فرص لتحسين التعاون.

تعد البيئات التعاونية في تعلم التعزيز (Reinforcement Learning) بيئات هشة، حيث تؤدي ديناميكية التعلم المتزامن بين الوكلاء (agents) إلى تهديد استقرار التعاون. فنجد أن كل خطوة تعليمية يقوم بها وكيل تؤثر بشكل كبير على توزيعة أفعال الوكيل الآخر، مما يؤدي إلى تحول شريك التعاون إلى مصدر من الضجيج العشوائي عندما تكون قرارات التعاون أكثر حساسية.

دراسة حديثة تسلط الضوء على كيفية انتشار هذه الضغوط بسبب التعلم المشترك داخل لعبة التنسيق (coordination games)، وتظهر أن التوازن التعاوني، حتى وإن كان مفضلًا بشكل قوي (Pareto-dominant)، يصبح غير مستقر بشكل أسي في ظل التعلم القائم على المخاطر العادية (risk-neutral learning). عندما يتجاوز الضجيج الناجم عن وجود شركاء محددات التعاون الحاسمة، تنهار العلاقات التعاونية بلا رجعة.

في هذا السياق، يمكن أن يفكر المبتكرون في كيفية استخدام القوة التوزيعية (distributional robustness) لهدف عائدات متجنبة للمخاطر. ولكن للأسف، يؤدي ذلك إلى تفاقم الوضع بدلاً من تحسنه؛ حيث تضيف الأهداف المتجنبة للمخاطر عقوبات على الأعمال التعاونية ذات التباين العالي مقارنة بالخيانة، مما يوسع منطقة عدم الاستقرار بدلًا من تقليصها.

عرضت الدراسة حلاً غير متوقع، حيث يجب أن تستهدف القوة المتوزعة تباين تحديثات التوجه (policy gradient updates) الناتج عن عدم اليقين الموجود بين الشركاء، وليس توزيع العائد. تُظهر التجارب أن هذا التمييز يؤدي إلى خوارزمية تُعدل تحديثات التوجه بناءً على قياس حالي لعدم توقع الشريك، مما يُثبت أنه يمكن توسيع نطاق التعاون في ألعاب التنسيق المتماثلة (symmetric coordination games).

لجمع بين الاستقرار، وتعقيد العينة (sample complexity)، والنتائج الاجتماعية (welfare consequences) لهذه الطريقة، تم تقديم مفهوم جديد يسمى "سعر جنون الشك" كمعاكس هيكلي لـ"سعر الفوضى" (Price of Anarchy). بالتعاون مع نافذة التعاون (Cooperation Window) الجديدة، يتمكن المبتكرون من تحديد مدى استرجاع رفاهية خوارزميات التعلم تحت ضغوط الشركاء، مما يساعد على تحديد الدرجة المثلى من القوة المتوزعة كمعادلة مغلقة بين استقرار التوازن وكفاءة العينة.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة