في عالم [تطوير البرمجيات](/tag/[تطوير](/tag/تطوير)-[البرمجيات](/tag/البرمجيات)) الحديثة، تزداد أهمية [تقييم البرمجيات](/tag/[تقييم](/tag/تقييم)-[البرمجيات](/tag/البرمجيات)) التفاعلية التي تم إنشاؤها بواسطة [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) بشكل ملحوظ. ومع ذلك، فإن هذه [العملية](/tag/العملية) ليست بالأمر السهل، حيث تتطلب الجمع بين [التحليل](/tag/التحليل) الساكن وتنفيذ [البرمجيات](/tag/البرمجيات). تكمن المشكلة الأساسية في أن [الصحة](/tag/الصحة) والصواب في هذه الأنظمة تعتمد على [خصائص](/tag/خصائص) [التفاعل](/tag/التفاعل) مع [واجهة](/tag/واجهة) المستخدم، مما يجعل [التقييم](/tag/التقييم) يمثل تحدياً حقيقياً.
عرض الباحثون [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تُعرف باسم [دياغيفال](/tag/دياغيفال) (DiagEval)، وهي [بروتوكول](/tag/بروتوكول) مبتكر يهدف إلى [تشخيص](/tag/تشخيص) [الأخطاء](/tag/الأخطاء) بعد الفشل في [تقييم](/tag/تقييم) [وكيل](/tag/وكيل) [واجهة المستخدم](/tag/[واجهة](/tag/واجهة)-المستخدم) (GUI Agent). بدلاً من البدء من [جديد](/tag/جديد) في كل مرة يفشل فيها النموذج، يقوم [دياغيفال](/tag/دياغيفال) بإعادة استخدام المسار التنفيذي الفاشل لاختيار [أدوات](/tag/أدوات) [تشخيص](/tag/تشخيص) مستهدفة وتجمع نتائجها لتوفير إشارة تمثيلية للخطأ.
تستند الفكرة الرئيسية إلى مفهوم [الرسوم البيانية](/tag/الرسوم-البيانية) الكامنة (Latent Graphs)، حيث لا يتم إعادة [بناء](/tag/بناء) [الرسوم البيانية](/tag/الرسوم-البيانية) أو تقدير الاحتمالات بعد الفشل. تم اختبار [دياغيفال](/tag/دياغيفال) على عدة [منصات](/tag/منصات) مثل WebDevJudge-Unit وRealDevBench، حيث أثبت النظام فعاليته في استعادة بين 45.6% إلى 62.1% من [الأخطاء](/tag/الأخطاء) التي تم إسنادها بشكل خاطئ إلى عيوب البرمجيات، متفوقاً على الطرق التقليدية التي تعتمد على المحاولة مجدداً.
وبذلك، تحسن [دقة](/tag/دقة) [التقييم](/tag/التقييم) من 69.9% إلى 78.3% على WebDevJudge-Unit ومن 65.0% إلى 81.6% على RealDevBench. هذه النتائج تشير بوضوح إلى أن [التقييم](/tag/التقييم) الموثوق لوكلاء [واجهة المستخدم](/tag/[واجهة](/tag/واجهة)-المستخدم) يحتاج ليس فقط إلى [تنفيذ](/tag/تنفيذ) أقوى، ولكن أيضاً إلى [تشخيص](/tag/تشخيص) نشط للأخطاء لتمييز [الأخطاء](/tag/الأخطاء) الجانبية للمقيّم عن العيوب الحقيقية في [البرمجيات](/tag/البرمجيات).
لمعرفة المزيد عن دياغيفال، يمكنك زيارة [الكود البرمجي](/tag/[الكود](/tag/الكود)-البرمجي) المتاح على [GitHub](https://github.com/scutGit/DiagEval). ما رأيكم في هذا [الابتكار](/tag/الابتكار)؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!
دياغيفال: بروتوكول مبتكر لتحسين تقييم البرمجيات التفاعلية باستخدام وكلاء واجهة المستخدم!
يقدم نظام دياغيفال أسلوباً جديداً لتشخيص الأخطاء في البرمجيات التفاعلية من خلال تحليل مسارات التنفيذ. هذا الابتكار يحقق تحسينات كبيرة في دقة التقييم مقارنةً بالأساليب التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
