في عالم الذكاء الاصطناعي، تعتبر تقييمات وكيل التيرمينال (Terminal-Agent Benchmarks) بمثابة العلامات الأساسية التي تقيس كفاءة البرمجة وإدارة الأنظمة لدى نماذج اللغات الضخمة (Large Language Models). ومع تزايد الإقبال على بيئات التقييم، يأتي الضغط على المطورين لتسليم المهام بسرعة، وغالبًا ما يتم ذلك دون مراجعة نقدية شاملة للمنطق المستخدم في التحقق.

يقدم هذا المقال دليلاً مفصلاً حول كيفية كتابة مهام تقييم فعّالة استنادًا إلى أكثر من عام من الخبرة في المساهمة ومراجعة المهام ضمن مشروع Terminal Bench. حيث إن معظم الناس يكتبون مهام التقييم كما يكتبون الأوامر، وهذا خطأ شائع يجب تصحيحه. فبينما تهدف الأوامر لمساعدة الوكيل على النجاح، فإن تقويم المهام مصمم لاختبار قدرات الوكيل وكشف نقاط ضعفه.

نجادل بأن المهام الجيدة يجب أن تكون عدوانية، وصعبة، وسهلة الفهم. كما تم تصنيف مجموعة كبيرة من أنماط الفشل الشائعة، مثل التعليمات التي تم إنشاؤها بواسطة الذكاء الاصطناعي، والمواصفات المفرطة، والصعوبات الإدارية، والحلول السحرية التي تفترض معرفة مخفية. نعرض أدلة تجريبية حديثة تشير إلى أن أكثر من 15% من المهام في تقييمات وكيل التيرمينال الشهيرة يمكن تحريفها لتحقيق مكافآت.

نأمل أن يكون هذا الدليل مرجعًا مفيدًا للقائمين على التقييم، والمساهمين في المهام، والباحثين الذين يستخدمون نتائج التقييم كدليل على كفاءة الأنظمة.