في عالم الذكاء الاصطناعي المتطور، تمثل المهارات (Skills) إحدى الأدوات الفعّالة في تحسين أداء وكلاء نماذج اللغات الضخمة (LLM) في المهام المعقدة. ومع ذلك، فإن النماذج الحالية تعتمد في تطوير هذه المهارات على المراقبين الخارجيين أو قواعد مصممة يدوياً، مما يجعل المهارات موارد خارجية بدلاً من قدرات يمكن للوكلاء تطويرها وتكييفها من خلال الخبرة.

لذا، تم تقديم إطار العمل SkillMaster، الذي يُعنى بتعليم الوكلاء كيفية إنشاء مهارات جديدة، وتحسين المهارات الحالية، واختيار المهارات المتراكمة أثناء حل المهام. يتضمن هذا الإطار ثلاثة تصاميم رئيسية. أولاً، يتم تدريب الوكلاء عبر مراجعة المهارات المعتمدة على المسارات المنجزة، مما يعلّمهم كيفية اقتراح وتحديث أو الاحتفاظ بالمهارات استنادًا إلى الأدلة من الحلقات المكتملة. ثانياً، يتم تصميم كل تعديل مهاري ليتم تقييمه بناءً على جدواه التطبيقية في المهام ذات الصلة، مما يوفر إشارة تعلم مباشرة لتدريب قرارات تحرير المهارات. ثالثاً، نقدم DualAdv-GRPO، الذي يقدّر المزايا بشكل منفصل لكل من إجراءات حل المهام وقرارات تعديل المهارات، مما يضمن استقرار التدريب المشترك بين حل المهام وإدارة المهارات.

أظهرت التجارب على ALFWorld وWebShop أن SkillMaster يزيد من معدل النجاح الإجمالي بنسبة 8.8% و9.3% على التوالي، محققاً أفضل أداء بين جميع الطرق المقارنة. تكشف التحليلات اللاحقة عن تحول كبير في قدرات الوكلاء: الوكلاء المدربون باستخدام SkillMaster يمكنهم تحديد فشل المهارات، وتحسين المعرفة الإجرائية من الأدلة المستمدة من المسارات، ونقل التحسينات إلى المهام المستقبلية مع تعديلات محدودة على بنك المهارات. في المجمل، يُحرّك SkillMaster وكلاء نماذج اللغات الضخمة (LLM) إلى ما هو أبعد من مجرد استخدام المهارات نحو وكلاء ذاتيين قادرين على تطوير وتكييف وتطبيق مجموعاتهم المهارية الخاصة.