في السنوات الأخيرة، شهدنا تقدمًا مذهلاً في قدرات نماذج اللغة الضخمة (Large Language Models) في مجال توليد الأكواد. ولكن، تبين أن الطرق الحالية تعتمد بشكل رئيس على التغذية الراجعة النصية، مثل مخرجات سطر الأوامر، مما يجعلها تواجه صعوبة في تصحيح الأكواد الخاصة بواجهات الاستخدام الرسومية (GUIs) التي تحتوي على معلومات بصرية.

السبب في ذلك يعود إلى أمرين رئيسيين: أولًا، تعتمد برامج الواجهة الرسومية على الأحداث، مما يجعلها تحتاج إلى محاكاة التفاعلات البشرية بشكل فعال. وثانيًا، تمتلك هذه البرامج خصائص بصرية تجعل من الصعب على الطرق المعتمدة على النص تحديد ما إذا كانت الواجهة المقدمة تلبي احتياجات المستخدم أم لا.

لحل هذه التحديات، تم تقديم معيار جديد يُعرف باسم InteractGUI Bench، والذي يتضمن 984 مهمة حقيقية متعلقة ببرامج الواجهة الرسومية، مصممة للتقييم الدقيق لكل من منطق التفاعل والبنية البصرية.

علاوة على ذلك، تم اقتراح VF-Coder، وهو نظام يعتمد على التغذية الراجعة المرئية لتصحيح الأكواد. من خلال إدراك المعلومات البصرية والتفاعل مباشرة مع واجهات البرامج، يستطيع VF-Coder تحديد المشكلات المنطقية والتخطيطية بطريقة مشابهة للبشر.

تشير النتائج على معيار InteractGUI Bench إلى أن نهج VF-Coder قد زاد معدل النجاح لنموذج Gemini-3-Flash من 21.68% إلى 28.29%، كما رفع الدرجة البصرية من 0.4284 إلى 0.5584. مما يدل على فعالية التغذية الراجعة المرئية في تصحيح الأكواد الخاصة بواجهات الاستخدام الرسومية.

إن هذا التقدم يفتح آفاقًا جديدة في كيفية تعاملنا مع برمجة واجهات الاستخدام، ويعد بمستقبل أكثر تفاعلية وسهولة في تطوير التطبيقات. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.