في عالم الذكاء الاصطناعي، تظل تحديات التعلم التعزيزي (Reinforcement Learning) معقدة، خصوصًا في البيئات التي تعتمد على التعاون بين عدة وكلاء. لكن، مع ظهور تقنيات جديدة، يبدو أن الأمور قد أخذت منحىً جديدًا. تم اقتراح نظام إدارة استراتيجي هرمى، حيث يتولى نموذج لغوي ضخم (Large Language Model) مهامًا استراتيجية مركزية، يقوم باختيار سياسات تعلم تعزيزي متخصصة لفريق من الوكلاء.
تحتوي هذه البنية التحتية الهجينة على وكالة تنفيذ تفاعلية تتعامل مع ردود الفعل في الوقت الحقيقي، مما يمنح الوكلاء القدرة على التكيف مع ظروف اللعبة المتغيرة. لقد أجريت تجارب في بيئة منافسة تتطلب التنسيق بين اثنين ضد اثنين في لعبة "ملك التل"، حيث أظهرت نتائج النظام الهجين أداءً قريبًا من الأنظمة المعدة يدويًا.
أظهرت نتائج الدراسة أن النظام الهجين (LLM + RL) حقق معدل نجاح يبلغ 46.4%، قريبًا جدًا من المعدل اليدوي البالغ 51.5%، مما يدل على أن النظام يمكن أن يتفوق على الأنظمة التقليدية التي تفتقر إلى تفكيك المهارات. بالإضافة إلى ذلك، أظهرت دراسة استخدام المستخدمين أن 60% من المشاركين وجدوا أن الوكلاء الذين يستندون إلى نموذج LLM يتسمون بالسلوك الأقرب إلى الإنسان، مما يعكس مرونة تكتيكية واحتراف في الأداء.
توفر هذه النتائج دليلاً قويًا على أن التفكير بواسطة نموذج لغوي ضخم يمكن أن يُحسن من تنسيق الفرق متعددة الوكلاء ويحقق مصداقية أفضل بدون الحاجة إلى هندسة القواعد يدويًا.
أداء مذهل للذكاء الاصطناعي: إدارة استراتيجية هرمية في ألعاب متعددة الوكلاء!
تقدم دراسة جديدة استخدام نموذج لغوي ضخم (LLM) كوحدة تحكم استراتيجية لتنسيق الفرق في بيئات متعددة الوكلاء. النتائج تظهر تفوقًا في التنسيق بين الوكلاء وتفاعلًا يشبه البشر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
