في عالم تطوير البرمجيات الحديثة، تزداد أهمية تقييم البرمجيات التفاعلية التي تم إنشاؤها بواسطة نماذج اللغات الضخمة (Large Language Models) بشكل ملحوظ. ومع ذلك، فإن هذه العملية ليست بالأمر السهل، حيث تتطلب الجمع بين التحليل الساكن وتنفيذ البرمجيات. تكمن المشكلة الأساسية في أن الصحة والصواب في هذه الأنظمة تعتمد على خصائص التفاعل مع واجهة المستخدم، مما يجعل التقييم يمثل تحدياً حقيقياً.

عرض الباحثون تقنية جديدة تُعرف باسم دياغيفال (DiagEval)، وهي بروتوكول مبتكر يهدف إلى تشخيص الأخطاء بعد الفشل في تقييم وكيل واجهة المستخدم (GUI Agent). بدلاً من البدء من جديد في كل مرة يفشل فيها النموذج، يقوم دياغيفال بإعادة استخدام المسار التنفيذي الفاشل لاختيار أدوات تشخيص مستهدفة وتجمع نتائجها لتوفير إشارة تمثيلية للخطأ.

تستند الفكرة الرئيسية إلى مفهوم الرسوم البيانية الكامنة (Latent Graphs)، حيث لا يتم إعادة بناء الرسوم البيانية أو تقدير الاحتمالات بعد الفشل. تم اختبار دياغيفال على عدة منصات مثل WebDevJudge-Unit وRealDevBench، حيث أثبت النظام فعاليته في استعادة بين 45.6% إلى 62.1% من الأخطاء التي تم إسنادها بشكل خاطئ إلى عيوب البرمجيات، متفوقاً على الطرق التقليدية التي تعتمد على المحاولة مجدداً.

وبذلك، تحسن دقة التقييم من 69.9% إلى 78.3% على WebDevJudge-Unit ومن 65.0% إلى 81.6% على RealDevBench. هذه النتائج تشير بوضوح إلى أن التقييم الموثوق لوكلاء واجهة المستخدم يحتاج ليس فقط إلى تنفيذ أقوى، ولكن أيضاً إلى تشخيص نشط للأخطاء لتمييز الأخطاء الجانبية للمقيّم عن العيوب الحقيقية في البرمجيات.

لمعرفة المزيد عن دياغيفال، يمكنك زيارة الكود البرمجي المتاح على GitHub. ما رأيكم في هذا الابتكار؟ شاركونا آراءكم في التعليقات!