في عالم تطوير البرمجيات، تعد نماذج اللغات الضخمة (Large Language Models) أدوات قوية لتوليد الأكواد. لكن هذه النماذج تواجه تحديات جادة، حيث كثيراً ما تنتج أخطاءً تُعرف باسم 'الهلاوس البرمجية' أثناء تنفيذ مهام 'ملء الفراغات' (Fill-in-the-Middle Tasks). هذه الأخطاء تبدو وكأنها ذات مصداقية، لكنها في الحقيقة تتضمن طرق استدعاء APIs غير موجودة، أو متغيرات غير معرفة، مما يؤدي إلى أخطاء أثناء التشغيل.
لذا، قدم الباحثون معياراً جديداً يدعى Delulu، والذي يعد بمثابة نقطة تحول في كيفية تقييم هذه الأخطاء. يحتوي Delulu على 1,951 نموذجاً من مهام 'ملء الفراغات' عبر سبع لغات، ويشمل أنواعًا متعددة من الأخطاء، ويدعم عملية تقييم فعالة.
تسير عملية إعداد المعيار وفق سلسلة من الخطوات المدروسة: حيث تم استخدام نموذج اللغة المتقدمة لتوليد الهلاوس، وتقييم هذه النماذج من خلال أربعة نماذج قضاة متنوعة، تلاها مراحل تجمع وبيانات دقيقة. ثم جرى التحقق من أن الحلول الصحيحة تمثل نتائج قابلة للتنفيذ، في حين أن الحلول الهلاوسية تؤدي إلى أخطاء متوقعة أثناء التشغيل.
تم تقييم 11 نموذجاً مفتوح الوزن من خمس عائلات مختلفة، والتي تتراوح من 0.5B إلى 32B من المعلمات، حيث حقق النموذج الأقوى حكومةً تقييمًا بـ 84.5%، إلا أن جميع العائلات أظهرت استمرارية في إنتاج حلول خاطئة، مما يُظهر أن الصعوبة التي يكشف عنها Delulu تنبع من طبيعة المهام وليس من العائلات.
كما تم نشر المعيار مع الحاويات وإطار التقييم على GitHub، مما يسهل على المطورين الاستفادة منه.
هذا التطور يقدم لنا رؤية أوسع حول كيفية تعزيز فعالية نماذج الذكاء الاصطناعي، مما يُثلج صدور المطورين والباحثين على حد سواء. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
كشف الستار عن Delulu: معيار موثوق للكشف عن الأخطاء في أكواد البرمجة المتعددة اللغات!
تم تقديم Delulu كمعيار مثير للدهشة للكشف عن أخطاء أكواد البرمجة في مهام 'ملء الفراغات'. يتضمن هذا المعيار 1,951 نموذجاً يغطي سبع لغات ويكشف عن أنواع متعددة من الأخطاء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
