في ظل التطورات المتسارعة في الذكاء الاصطناعي، تبرز أدوات البرمجة المعززة بالذكاء الاصطناعي (LLM-powered coding agents) كوسيلة جديدة تغير من مشهد تطوير البرمجيات التقليدي. ومع ذلك، لا تتناسب أنظمة التقييم الحالية - سواء كانت الاختبارات التقليدية للبشر أو المعايير المستخدمة لتقييم نماذج اللغات الضخمة (Large Language Models) - مع هذا التحول. فهذه الأنظمة تركز بشكل أساسي على المشكلات الخوارزمية الواضحة، متجاهلة بذلك المشكلات التي تتطلب تعاوناً فعّالاً بين البشر والذكاء الاصطناعي.

لتجاوز هذه العقبة، تم تقديم معيار HAI-Eval، الذي يهدف إلى قياس مستويات التعاون بين البشر والذكاء الاصطناعي في البرمجة. تتمثل الابتكار الرئيسي في HAI-Eval في قوالب المشكلات "التي تتطلب التعاون"، والتي يصعب حلها من قبَل البشر أو الذكاء الاصطناعي بشكل منفصل، ولكن يجري حلها بفعالية من خلال التعاون. يتكون HAI-Eval من 45 قالباً يتم استخدامها لإنشاء مهام ديناميكية، كما يوفر بيئة تطوير متكاملة (IDE) موحدة للمشاركين البشر وأدوات قابلة لإعادة الاستخدام تتضمن 450 حالة مهمة للذكاء الاصطناعي، مما يضمن تقييمًا صادقًا.

في دراسة أُجريت مع 45 مشاركاً، تمت مقارنة أدائهم مع 5 من نماذج اللغات الضخمة المتطورة تحت 4 مستويات مختلفة من التدخل البشري. أظهرت النتائج أن نماذج اللغات الضخمة المستقلة والمشاركين غير المدعومين حققوا نسب نجاح متدنية (0.67% و18.89%)، في حين أن التعاون بين البشر والذكاء الاصطناعي رفع هذه النسبة إلى 31.11%. تكشف تحليلاتنا عن شراكة تفكيرية جديدة، حيث تحدي النتائج التقليدية التي كانت توصي بهيمنة الإنسان على الأدوات.

يؤسس HAI-Eval معياراً صعباً لوكلاء البرمجة جيل المستقبل، فضلاً عن إطار عمل قابل للتوسع لتقييم الكفاءات الأساسية للمطورين في عصر الذكاء الاصطناعي. ستتوفر هذه المعايير وتجربة تفاعلية للجمهور بشكل مفتوح، مما يساهم في تعزيز التعاون بين البشر والذكاء الاصطناعي.