في عالم الذكاء الاصطناعي السريع التطور، تظهر الحاجة إلى الوسائل التي تساعد على تقييم مهارات الوكالة (Agent Skills) والتي تعمل على تحسين قدرات نماذج اللغات الضخمة (Large Language Models). مع تزايد الاعتماد على هذه المهارات في الصناعة، لا تزال التأثيرات المتقاطعة لها بين المجالات المختلفة غير مدروسة بالشكل الكافي، ولا توجد منهجيات قابلة لإعادة الاستخدام لتقييم المهارات الفردية.

هذا المقال يقدم إطار عمل مبتكر يسمح للمؤلفين (Skill Authors) بإعداد مهام واقعية لتقييم الجوانب الأكثر أهمية في المهارات، حيث يتم تقدير فائدة هذه المهارات من خلال تنفيذ المهام. في إطار التجارب، تم تطبيق نهج التقييم على 500 مهارة حقيقية، مما أدى إلى إنشاء 1000 مهمة مستندة إلى محتوى المهارات، جنبا إلى جنب مع معايير تقييم تنفيذ التعليمات وتحقيق الأهداف.

أظهرت النتائج أن النماذج، سواء كانت تجارية أو مفتوحة المصدر، تتفاوت بشكل كبير في كيفية التزامها بالتعليمات المحددة في المهارات، مما يؤدي إلى اختلافات ملحوظة في أداءها. من المثير للاهتمام أن الوصول إلى مهارة معينة يغير من سلوك النموذج بشكل ملحوظ مقارنة بمجموعة المهارات غير المتاحة، مما يوفر آلية ضرورية لترميز سير العمل القائم على الآراء في نماذج الذكاء الاصطناعي.

تم إصدار مجموعة بيانات التقييم هذه لدعم الأبحاث المستقبلية في مجال مهارات الوكالة، مما يشير إلى أن المستقبل يحمل الكثير من الفرص لتطوير وتحسين الذكاء الاصطناعي.