تتميز الدراسات الحديثة في مجال الذكاء الاصطناعي بإمكاناتها المدهشة في تحسين التنسيق البشري من خلال تأثير المعتقدات. في هذا السياق، شهدنا ظهور تقنية جديدة تُعرف بتشكيل الخصم القائم على المعتقدات القابلة للاشتقاق (Differentiable Belief-based Opponent Shaping) المعروفة اختصارًا بـD-BOS.
تستند فكرة D-BOS إلى كيفية تصرف البشر في التنسيق مع الآخرين، حيث تعتمد على القدرة على التأثير في معتقدات الآخرين من خلال الإجراءات الاستراتيجية. وفي حين حاولت الأساليب التقليدية في التعلم المعزز متعدد الوكلاء (Multi-Agent Reinforcement Learning) تقليد هذه التأثيرات، إلا أنها كانت تعمل عادةً ضمن مساحة معلمات الخصم أو سياسة أو قيمة معينة.
من ناحية أخرى، تعتمد تقنيات تغيير المعتقدات في الألعاب ذات الأدوار الخفية على أهداف محددة مسبقًا، مثل الخداع أو تشبع المعتقدات. لكن تقنية D-BOS تقدم نهجًا مختلفًا كليًا، حيث تعالج كل معتقد كحالة للخصم القابل للتشكيل وتقوم بالتفريق من خلال ديناميكيات المعتقدات باستخدام الصيغة الرياضية $k$-step softmax-Bayes.
على عكس الأساليب التقليدية، لا تكافئ D-BOS مباشرةً التصرفات المخادعة أو التعاونية، بل تُعَدّل حالة الاعتقاد كهدف للتشكيل. وهذا يتيح للحظة الاستراتيجية المثالية أن تنبثق بشكل طبيعي من بنية مكافآت البيئة.
توضح التجارب أن D-BOS تتفوق على أساليب اللعب التقليدية مثل PPO وBBM، وخاصة في السيناريوهات المختلطة الدافع، مما يبرز إمكانات كبيرة لهذه التقنية في الاستراتيجيات الحديثة للألعاب. هل أنتم مستعدون لاستكشاف عالم جديد من إمكانيات الذكاء الاصطناعي؟
ابتكار ثوري: تشكيل الخصم القائم على المعتقدات القابلة للاشتقاق!
تقدم دراسة جديدة تقنية تشكيل الخصم القائم على المعتقدات القابلة للاشتقاق (D-BOS) التي تعزز التنسيق بين الوكلاء في التعلم المعزز. هذه التقنية تعد بتوفير استراتيجيات أفضل في الألعاب ذات الأدوار الخفية، حيث تتفوق على الطرق التقليدية بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
