في عالم الذكاء الاصطناعي، أصبحت نماذج توليد الأكواد (Code Generation Models) تحت مجهر التقييم، حيث يتم مقارنة أدائها من خلال اختبارات تنفيذية متكاملة، إلا أن هذه المقارنات غالبًا ما تخفي جوانب هامة من الأداء تتعلق باللغات البرمجية المختلفة وأسرار الفشل.
في خطوة مبتكرة، قدم الباحثون تقييمًا واسع النطاق لـ 9 نماذج لغة مفتوحة متخصصة في البرمجة، وذلك من خلال تحليل 2,707 مشكلة برمجية مجانية من LeetCode عبر 12 لغة برمجة. تضمنت الدراسة 325,343 تجربة تربط بين بيانات الإدخال (prompt metadata)، الأكواد المستخرجة، نتائج تنفيذ LeetCode، وإشارات التحليل الثابت.
أشارت النتائج إلى أن النماذج المفتوحة الحالية ما زالت بعيدة عن المعيار البشري المقبول: حيث حقق أفضل نموذج، Yi-Coder-9B-Chat، نسبة دقة متوسطة تبلغ 23.64% مقارنةً بـ 57.2% كخط أساس لقبول البشر. وتختلف الترتيبات وفقًا لمستويات الصعوبة: حيث يعد نموذج Qwen2.5-Coder-14B-Instruct الأكثر قوة على المشكلات الصعبة، بينما يسجل Gemma-2-27B-IT أعلى نسبة نجاح عبر جميع اللغات.
أظهرت تحليلات الفشل أن أخطاء التجميع تشكل 63.25% من أفضل المحاولات غير المقبولة، مما يعني أن العديد من الفشل يحدث قبل اختبار الدقة الدلالية. كما أن الجودة الثابتة تختلف بشكل أكبر عن الدقة الوظيفية.
تشير هذه النتائج إلى أن التقييم متعدد اللغات الذي يحتفظ بالتحف (Artifact-Preserving Evaluation) يكشف عن التبادلات التي تخفى وراء لوائح النقاط ذات اللغة الواحدة أو المعيار الواحد، مما يستدعي إعادة النظر في استراتيجيات تقييم أداء نماذج الذكاء الاصطناعي.
تجاوز نسبة النجاح: تقييم شامل لنماذج البرمجة متعددة اللغات
تقدم الدراسة تقييمًا شاملًا لمدى أداء نماذج توليد الأكواد مفتوحة المصدر عبر 12 لغة برمجة، موضحة الفجوة الكبيرة بين نتائجها والمرجعية البشرية. نتائج مثيرة تشير إلى أهمية التحليل المتعمق لفهم أداء النماذج بشكل أفضل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
