في ظل التطورات المتسارعة في الذكاء الاصطناعي، تبرز [أدوات](/tag/أدوات) [البرمجة](/tag/البرمجة) المعززة بالذكاء الاصطناعي ([LLM](/tag/llm)-powered coding [agents](/tag/agents)) كوسيلة جديدة تغير من مشهد [تطوير البرمجيات](/tag/[تطوير](/tag/تطوير)-[البرمجيات](/tag/البرمجيات)) التقليدي. ومع ذلك، لا تتناسب [أنظمة](/tag/أنظمة) [التقييم](/tag/التقييم) الحالية - سواء كانت الاختبارات التقليدية للبشر أو [المعايير](/tag/المعايير) المستخدمة لتقييم [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) - مع هذا التحول. فهذه الأنظمة تركز بشكل أساسي على المشكلات الخوارزمية الواضحة، متجاهلة بذلك المشكلات التي تتطلب تعاوناً فعّالاً بين البشر والذكاء الاصطناعي.
لتجاوز هذه العقبة، تم تقديم معيار HAI-Eval، الذي يهدف إلى [قياس](/tag/قياس) مستويات [التعاون بين البشر والذكاء الاصطناعي](/tag/[التعاون](/tag/التعاون)-بين-البشر-والذكاء-الاصطناعي) في [البرمجة](/tag/البرمجة). تتمثل [الابتكار](/tag/الابتكار) الرئيسي في [HAI-Eval](/tag/hai-eval) في قوالب المشكلات "التي تتطلب [التعاون](/tag/التعاون)"، والتي يصعب حلها من قبَل البشر أو [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) بشكل منفصل، ولكن يجري حلها بفعالية من خلال [التعاون](/tag/التعاون). يتكون [HAI-Eval](/tag/hai-eval) من 45 قالباً يتم استخدامها لإنشاء مهام ديناميكية، كما يوفر [بيئة](/tag/بيئة) [تطوير](/tag/تطوير) متكاملة (IDE) موحدة للمشاركين البشر وأدوات قابلة لإعادة الاستخدام تتضمن 450 حالة مهمة للذكاء الاصطناعي، مما يضمن تقييمًا صادقًا.
في [دراسة](/tag/دراسة) أُجريت مع 45 مشاركاً، تمت مقارنة أدائهم مع 5 من [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) المتطورة تحت 4 مستويات مختلفة من التدخل البشري. أظهرت النتائج أن [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) المستقلة والمشاركين غير المدعومين حققوا نسب [نجاح](/tag/نجاح) متدنية (0.67% و18.89%)، في حين أن [التعاون بين البشر والذكاء الاصطناعي](/tag/[التعاون](/tag/التعاون)-بين-البشر-والذكاء-الاصطناعي) رفع هذه النسبة إلى 31.11%. تكشف تحليلاتنا عن [شراكة](/tag/شراكة) تفكيرية جديدة، حيث [تحدي](/tag/تحدي) النتائج التقليدية التي كانت توصي بهيمنة الإنسان على [الأدوات](/tag/الأدوات).
يؤسس [HAI-Eval](/tag/hai-eval) معياراً صعباً لوكلاء [البرمجة](/tag/البرمجة) جيل المستقبل، فضلاً عن إطار [عمل](/tag/عمل) قابل للتوسع لتقييم الكفاءات الأساسية للمطورين في عصر [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي). ستتوفر هذه [المعايير](/tag/المعايير) وتجربة [تفاعلية](/tag/تفاعلية) للجمهور بشكل مفتوح، مما يساهم في تعزيز [التعاون بين البشر والذكاء الاصطناعي](/tag/[التعاون](/tag/التعاون)-بين-البشر-والذكاء-الاصطناعي).
HAI-Eval: قياس تناغم البشر والذكاء الاصطناعي في البرمجة التعاونية
تقدم HAI-Eval معياراً جديداً لقياس تعاون البشر والذكاء الاصطناعي في البرمجة، حيث يتيح تقييم القدرة على حل المشكلات المعقدة التي تعتمد على الشراكة بين الطرفين. النتائج تظهر أن التعاون بين البشر والذكاء الاصطناعي يزيد من الكفاءة بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
