في عالم الذكاء الاصطناعي، يُعتبر تحسين الأداء أمرًا بالغ الأهمية. تظهر الأبحاث الحديثة في مجال نماذج اللغات الضخمة (Large Language Models) كيف يمكن لوكلاء الذكاء الاصطناعي أن يحسنوا من مهاراتهم دون الحاجة لتحديث الأوزان، من خلال تراكم المهارات اللغوية الطبيعية من التجارب. ومع ذلك، تعتمد الأنظمة الحالية بشكل كبير على حكم نماذج اللغات في اتخاذ قرار حول المهارات التي يجب الاحتفاظ بها وكيفية تطبيقها، مما قد يؤدي إلى بعض العيوب.

تقترح الدراسة الجديدة فصل دورين مختلفين: حيث يعد توليد المهارة عملية إبداعية تتعامل معها نماذج اللغات بشكل جيد، بينما يتطلب تحديد ما إذا كانت هذه المهارة تُسهم فعلاً في نجاح المهمة أدلة تجريبية مُنظمة.

من خلال قياس المساهمات السببية لكل مهارة عبر أسلوب التمويه العشوائي، أظهرت النتائج أن مكتبات المهارات تحتوي على تنوع سببي متفشي: فبعض المهارات قد تُساعد في بعض المهام بينما تؤذي الأداء في مهام أخرى. هذا التباين في الفعالية يعني أن تأثيرات المهارات تتلاشى في المجمل، مما يجعل من الصعب على طرق التنسيق العالمية رصدها.

لذلك، تم تقديم نظام جديد يُعرف بـ ASSAY، الذي يفصل بين عملية توليد المهارات وعملية تنسيقها. يعتمد ASSAY على حساب مساهمة كل مهارة في مجموعة صغيرة من البيانات التطويرية، ومن ثم يعيد هيكلة المكتبة بما يتناسب مع النتائج لتحسين الأداء. وقد أثبت هذا النظام كفاءته عبر سبع نماذج أساسية من أربعة مزودين وعلى معيارين متباينين.

في اختبارات الأداء، حقق DeepSeek-V3 في مجموعة AppWorld أصعب النتائج نسبة 69.3% في إتمام المهام، وهو ما يمثل زيادة نسبتها 47.4% مقارنة بالأساليب السابقة. كما سجل GPT-4.1 تحسنًا بنسبة 8.7% في معيار tau-bench. هذا يوضح أن العائق الأكبر يكمن في مطابقة المهارات مع المهام أثناء وقت استدلال النموذج وليس إزالة المهارات السيئة عالمياً.

مع توفر الكود البرمجي على GitHub، يُعتبر هذا البحث خطوة جديدة نحو تعزيز فعالية وكيل الذكاء الاصطناعي، مما يُظهر إمكانيات غير محدودة في عالم الذكاء الاصطناعي.