في عالم الذكاء الاصطناعي المتطور، تعتبر مهارات الوكلاء (Agent Skills) حزمة متكاملة من المعرفة الإجرائية التي تعزز أداء نماذج اللغة الكبيرة (Large Language Models) أثناء عملية الاستنتاج. ومع زيادة استخدام هذه المهارات، كان التحدي الأكبر هو كيفية قياس فاعليتها بشكل موحد.

هنا يأتي دور SkillsBench، وهو معيار مبتكر ظهر لتلبية هذه الحاجة. يحتوي SkillsBench حاليًا على 87 مهمة عبر 8 مجالات مختلفة، مصاحبة لمهارات مُنقّحة ومُتحققة بشكل دقيق. في أحدث تجارب التقييم، تم تنفيذ معيار الـ 87 مهمة تحت ظروف مُقارنة، حيث جرى اختبار المهارات المُنقحة (Curated Skills) بدونها، مما ساهم في تحسين معدل النجاح من 33.9% إلى 50.5%، أي بزيادة تقدر بـ 16.6 نقطة مئوية.

ألقت الأبحاث الضوء أيضًا على الأداء المتفاوت بين تكوينات النماذج، حيث تراوحت الزيادات بين 4.1 إلى 25.7 نقطة مئوية. كما كشفت النتائج أن المهارات الدقيقة (Focused Skills) التي تشتمل على ثلاثة وحدات فقط، تتفوق على الحزم الأكبر والأكثر تعقيدًا. والأهم من ذلك، أن النماذج الأصغر التي تحتوي على هذه المهارات يمكن أن تنافس النماذج الأكبر التي تفتقر إليها، مما يشير إلى فاعلية هذه الأدوات في تعزيز الأداء.

يؤسس SkillsBench نمطًا جديدًا للتقييم المقارن، وهو أساس هام لقياس مدى فعالية المهارات على الأعمال المعقدة والمتخصصة. يرتقي هذا التطور بجودة الذكاء الاصطناعي إلى مستويات جديدة، مما يُبشر بعصر جديد من الابتكار وكفاءة الأعمال.