تواجه أنظمة الذكاء الاصطناعي التعاونية التحدي المستمر في تصميم مكافآت فعالة تعزز من التعاون بين العوامل. فعلى الرغم من توفر المكافآت البسيطة في بعض المهام، إلا أن عدم توافق الحوافز يمكن أن يؤدي إلى تنسيق غير مثالي.

في دراسة جديدة، تم تقديم إطار عمل مبتكر لتصميم المكافآت يستخدم نماذج اللغات الضخمة (LLMs) لإنشاء برامج مكافآت قابلة للتنفيذ استنادًا إلى تجهيزات البيئة. هذا الإطار يقيد البرامج المرشحة ضمن نطاق صلاحية رسمي، ويدرب السياسات من البداية باستخدام تحسين السياسة القريب المتعدد العوامل (MAPPO) ضمن ميزانية حوسبة ثابتة.

بعد تصميم المكافآت، يتم تقييم الأداء على أساس المكافآت المحدودة، حيث يتفوق هذا الإطار في أربعة تخطيطات مختلفة من لعبة Overcooked-AI، تتميز بمستويات متفاوتة من الازدحام والاعتماد على التسليم.

نتائج الدراسة تشير إلى أن طريقة تصميم المكافآت المقترحة تعزز العوائد من المهام وعدد عمليات التسليم، مع تحقيق أكبر المكاسب في البيئات التي تسيطر عليها الاختناقات التفاعلية. ووفقًا لتحليل شامل لمكونات التصميم، تم الكشف عن تفاعل أقوى في اختيار الإجراءات وتحسين التنسيق داخل المهام التي تتطلب تعاونًا عميقًا.

تظهر نتائج هذه الدراسة أن الإطار القائم على نماذج اللغات الضخمة لا يعزز فقط من الكفاءة في تصميم المكافآت، بل يقلل أيضًا من الحاجة إلى الهندسة اليدوية، مما يسمح بوجود إشارات تشكيل متوافقة مع التعلم التعاوني ضمن ميزانيات محدودة.

كيف تظن أن هذا التطور سيؤثر على مستقبل الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!