في عالم الذكاء الاصطناعي (AI)، تعتبر البيئات التفاعلية ذات الأفق الطويل اختبارًا مثيرًا لتقييم قدرات وكيل الذكاء الاصطناعي على استخدام المهارات. تعتمد هذه البيئات على التفكير المتعدد الخطوات، وسلاسل المهارات عبر العديد من المراحل الزمنية، واتخاذ قرارات قوية تحت مكافآت مؤجلة ورؤية جزئية.

تظهر الألعاب كمجال مثالي لاختبار استخدام وكيل الذكاء الاصطناعي للمهارات، لكن التحديات قائمة، خصوصًا عندما يتعلق الأمر بنماذج اللغة الكبيرة (LLMs) التي تعاني من نقص في الآليات اللازمة للاحتفاظ وإعادة استخدام المهارات الهيكلية عبر الحلقات. هنا تأتي تقنية COSPLAY، إطار تطوري مذهل حيث يقوم وكيل اتخاذ القرار بالاعتماد على استرجاع المهارات من بنك المهارات القابل للتعلم، مما يدعم اتخاذ الإجراءات.

تعمل تقنية COSPLAY على تعزيز كل من وكيل اتخاذ القرار ليتعلم كيفية استرجاع المهارات وتوليد الأفعال بشكل أفضل، بينما يقوم وكيل إدارة المهارات باكتشاف المهارات القابلة لإعادة الاستخدام من التجارب غير المصنفة للوكيل لتشكيل بنك المهارات.

أثبتت التجارب التي أجريت عبر ست بيئات ألعاب أن COSPLAY، باستخدام نموذج أساسي بحجم 8 مليارات، يسجل تحسينًا في متوسط المكافآت بنسبة تزيد عن 25.1% مقارنة بأربع نماذج LLM رائدة، مع الحفاظ على تنافسية عالية في ألعاب التفكير الاجتماعي المتعددة اللاعبين.

تعد هذه النتائج علامة فارقة في مجال الذكاء الاصطناعي، حيث تُظهر أن الابتكارات مثل COSPLAY قد تكون الحلول التي تحتاجها نماذج اللغة الكبيرة لتحسين أدائها وتحقيق نتائج مثمرة في البيئات التفاعلية.