في عالم [تطوير البرمجيات](/tag/[تطوير](/tag/تطوير)-[البرمجيات](/tag/البرمجيات)) الحديثة، تزداد أهمية [تقييم البرمجيات](/tag/[تقييم](/tag/تقييم)-[البرمجيات](/tag/البرمجيات)) التفاعلية التي تم إنشاؤها بواسطة [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) بشكل ملحوظ. ومع ذلك، فإن هذه [العملية](/tag/العملية) ليست بالأمر السهل، حيث تتطلب الجمع بين [التحليل](/tag/التحليل) الساكن وتنفيذ [البرمجيات](/tag/البرمجيات). تكمن المشكلة الأساسية في أن [الصحة](/tag/الصحة) والصواب في هذه الأنظمة تعتمد على [خصائص](/tag/خصائص) [التفاعل](/tag/التفاعل) مع [واجهة](/tag/واجهة) المستخدم، مما يجعل [التقييم](/tag/التقييم) يمثل تحدياً حقيقياً.

عرض الباحثون [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تُعرف باسم [دياغيفال](/tag/دياغيفال) (DiagEval)، وهي [بروتوكول](/tag/بروتوكول) مبتكر يهدف إلى [تشخيص](/tag/تشخيص) [الأخطاء](/tag/الأخطاء) بعد الفشل في [تقييم](/tag/تقييم) [وكيل](/tag/وكيل) [واجهة المستخدم](/tag/[واجهة](/tag/واجهة)-المستخدم) (GUI Agent). بدلاً من البدء من [جديد](/tag/جديد) في كل مرة يفشل فيها النموذج، يقوم [دياغيفال](/tag/دياغيفال) بإعادة استخدام المسار التنفيذي الفاشل لاختيار [أدوات](/tag/أدوات) [تشخيص](/tag/تشخيص) مستهدفة وتجمع نتائجها لتوفير إشارة تمثيلية للخطأ.

تستند الفكرة الرئيسية إلى مفهوم [الرسوم البيانية](/tag/الرسوم-البيانية) الكامنة (Latent Graphs)، حيث لا يتم إعادة [بناء](/tag/بناء) [الرسوم البيانية](/tag/الرسوم-البيانية) أو تقدير الاحتمالات بعد الفشل. تم اختبار [دياغيفال](/tag/دياغيفال) على عدة [منصات](/tag/منصات) مثل WebDevJudge-Unit وRealDevBench، حيث أثبت النظام فعاليته في استعادة بين 45.6% إلى 62.1% من [الأخطاء](/tag/الأخطاء) التي تم إسنادها بشكل خاطئ إلى عيوب البرمجيات، متفوقاً على الطرق التقليدية التي تعتمد على المحاولة مجدداً.

وبذلك، تحسن [دقة](/tag/دقة) [التقييم](/tag/التقييم) من 69.9% إلى 78.3% على WebDevJudge-Unit ومن 65.0% إلى 81.6% على RealDevBench. هذه النتائج تشير بوضوح إلى أن [التقييم](/tag/التقييم) الموثوق لوكلاء [واجهة المستخدم](/tag/[واجهة](/tag/واجهة)-المستخدم) يحتاج ليس فقط إلى [تنفيذ](/tag/تنفيذ) أقوى، ولكن أيضاً إلى [تشخيص](/tag/تشخيص) نشط للأخطاء لتمييز [الأخطاء](/tag/الأخطاء) الجانبية للمقيّم عن العيوب الحقيقية في [البرمجيات](/tag/البرمجيات).

لمعرفة المزيد عن دياغيفال، يمكنك زيارة [الكود البرمجي](/tag/[الكود](/tag/الكود)-البرمجي) المتاح على [GitHub](https://github.com/scutGit/DiagEval). ما رأيكم في هذا [الابتكار](/tag/الابتكار)؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!