في عالم الذكاء الاصطناعي، تتعدد التحديات التي تواجه أنظمة اتخاذ القرار، وخاصة في مجالات الحوسبة والشبكات. هذه المشكلات يمكن أن يتم صياغتها بشكل طبيعي كمشكلات لتقليل التكاليف تحت قيود الأداء. في البيئات الديناميكية، يعتمد البحث حديثًا على أنظمة التعلم المعزز (Reinforcement Learning - RL) لمعالجة هذه المشكلات أثناء التشغيل عن طريق إدماج التكاليف والانتهاكات المتعلقة بالقيود في مكافأة واحدة عن طريق استخدام مصطلحات العقوبات الموزونة، مستوحاة من صياغة لاغرانجيان.

إلا أن اختيار هذه الأوزان يظل تحديًا، حيث يؤثر بشكل حاسم على سلوك السياسة التي يتم تعلمها. وعادة ما يتم اختيار هذه الأوزان يدويًا، مما يجعل من الصعب تحديد توازن مناسب بين تحسين الهدف الرئيسي وتجنب انتهاكات القيود بشكل فعال. وهذا يزداد تعقيدًا في البيئات غير الثابتة حيث قد تتغير أهمية هذه العوامل.

لذلك، يقدم هذا البحث نظام MAMO (نظام متعدد الوكلاء لتحسين الأهداف المتعددة) كحل لهذه المشكلة. يعتمد MAMO على التعلم المعزز المتعدد الوكلاء لفصل تنفيذ المهام عن تصميم الأهداف، حيث يتم صياغة اختيار أوزان المكافأة كمسألة تعلم، مما يمثل خطوة أولى نحو حلول أكثر استقلالية وقوة لمشكلات تحسين القيود في البيئات الديناميكية.

يشكل هذا التطور leapًا نوعيًا في كيفية تعامل الأنظمة مع مشكلات معقدة، ويفتح آفاقًا جديدة أمام الباحثين والمطورين في مجال الذكاء الاصطناعي لتحسين الأنظمة بما يتماشى مع احتياجات البيئات المتغيرة.