في عصر تكنولوجيا الذكاء الاصطناعي، يبرز اختبار Vibe Code Bench كمرجع هام في تقييم كفاءة نماذج الذكاء الاصطناعي (AI) في تطوير تطبيقات الويب بشكل شامل. فمن المعروف أن توليد الشفرات البرمجية يمثل أحد أكثر الاستخدامات تأثيرًا للذكاء الاصطناعي، ولكن معظم الفحوصات القائمة حاليًا تقيس المهام المعزولة فقط، دون النظر في عملية بناء تطبيق عمل متكاملة من البداية للنهاية.

يهدف Vibe Code Bench إلى سد هذه الفجوة من خلال تقديم معيار يستند إلى 100 مواصفة لتطبيقات الويب، منها 50 للاختبار العام و50 للاختبارات الداخلية. تتضمن الاختبارات 964 عملية عمل قائمة على المتصفح، تشمل 10,131 خطوة فرعية، وتم تقييمها بواسطة وكيل متصفح مستقل. النتائج تكشف أن أفضل موديل من بين 16 نموذجًا متقدمًا يحقق دقة تصل إلى 61.8% في قسم الاختبار، مما يسلّط الضوء على أن تطوير التطبيقات من البداية للنهاية لا يزال يمثل تحديًا رئيسيًا.

تظهر الأبحاث أن الأداء الجيد مرتبط بوجود اختبار ذاتي أثناء عملية التوليد، حيث حصلت النتائج على معامل ارتباط بيرسون يبلغ 0.72. كما تبين من خلال دراسة أجريت على توافق المتقييمين، أن اختيار المتقييمين له تأثير كبير على النتائج، بوجود توافق يصل إلى 93.6% في تقييم الخطوات.

تشمل مساهمات Vibe Code Bench:
1. مجموعة بيانات معيارية جديدة وخط أنابيب تقييم قائم على المتصفح لتطوير تطبيقات الويب من البداية للنهاية.
2. تقييم شامل لـ 16 نموذجًا متقدمًا مع تحليل التكاليف والوقت والأخطاء.
3. بروتوكول توافق المتقييمين مع نتائج تقييمية عبر النماذج والملاحظات البشرية.