في عالم البرمجة الحديث، أصبحت فكرة تحويل الأفكار إلى مشاريع برمجية كاملة من الصفر أمرًا يتطلب مهارات عالية ويعمل على تسريع الابتكار. ومع إدخال نماذج اللغة الضخمة (Large Language Models) في هذا المجال، نشهد تحولًا مثيرًا يُدعى ProgramBench.

يسعى هذا البرنامج إلى قياس قدرة الوكلاء البرمجيين على تطوير البرمجيات بشكل شامل. يتمثل التحدي في أن الوكلاء يحتاجون إلى تصميم وتنفيذ قاعدة كود تتوافق مع سلوك البرنامج المرجعي، فقط باستخدام البرنامج وتوثيقه. تحليل نتائج الأداء يأتي من خلال اختبارات سلوكية شاملة يتم توليدها عبر عملية تقويض مقادَرة (agent-driven fuzzing).

تشمل المهام التي يجري تقييمها أدوات CLI البسيطة وبرمجيات موسعة مثل FFmpeg وSQLite ومفسر PHP. ومع ذلك، كشفت النتائج عن أن جميع نماذج اللغة المختبرة لم تتمكن من إنجاز أي مهمة بالكامل، حيث أن أفضل نموذج نجح في اجتياز 95% من الاختبارات ولكن فقط في 3% من المهام. كما تميل هذه النماذج إلى استخدام أساليب تنفيذ أحادية الملف (monolithic single-file implementations) بعيدة عن الأساليب المستخدمة في كتابة البرمجيات التقليدية.

تفتح هذه النتائج الأبواب أمام المزيد من الأبحاث والتطورات في مجال تطوير البرمجيات باستخدام الذكاء الاصطناعي، مما يثير تساؤلات حول الكيفية التي يمكن بها تحسين نماذج البرمجة للتميّز بين الأساليب البشرية وآليات البرمجة الأوتوماتيكية.