في عالم التكنولوجيا المتسارع، يبرز معيار VISTA (VIsual Spec-To-App Benchmark) كأداة غير مسبوقة لتقييم قدرات الوكلاء المعتمدين على نماذج اللغات الضخمة (Large Language Models) في تطوير تطبيقات الويب. بينما تركز المعايير السابقة على مهام البرمجة الخوارزمية، يتوجه VISTA نحو تطوير واجهات المستخدم الحقيقية، مما يتطلب من الوكلاء إنتاج تطبيقات وظيفية ومرئية متسقة من مدخلات غير محددة.
يتميز VISTA بتعريف خمسة أوضاع لمعلومات الطلب تختلف وفقًا لاثنين من المحاور: الدقة البصرية/الهيكلية وقيود البرمجيات. تشمل هذه الأوضاع:
1. نص فقط مع اختيار حر للهيكل.
2. نص مع لقطات شاشة مرجعية تحت ثلاث هياكل محددة.
3. نص مع لقطات شاشة مرجعية تحت اختيار حر للهيكل.
4. نص مع لقطات شاشة وهيكل Figma مقصوص تحت هيكل محدد واحد.
5. نص مع لقطات شاشة وهيكل Figma مقصوص تحت اختيار حر للهيكل.
لتوفير تقييم قوي، تم تصنيف كل صفحة في المعايير يدويًا مع مكونات واجهة مستخدم تفاعلية وحوالي ثلاث نقاط مرجعية بصرية، مما يعالج القيود المعروفة لأدوات الاختبار القائمة على النصوص مثل Playwright في سياقات توليد الشيفرة المفتوحة.
يشمل التقييم مقارنة مراجع قائمة على DOM، اختبارات معينة للسلوك في المتصفح، وتقنية CLIP لقياس الشبه البصري، مما يقيس معًا التطابق الهيكلي، اكتمال السلوك، والدقة البصرية العامة.
استخدمنا VISTA لتقييم أربعة أنظمة وكيل مستمدة من عائلتين من النماذج ومنصتين، ووجدنا أن الدقة البصرية والوظيفية تتفكك جزئيًا عبر كل من شروط الإدخال والوكلاء، وأن نمط تحرير الوكيل يختلف بشكل حاد لكنه يتقاطع في الغالب مع جودة المهمة. تأسس VISTA على أسس صارمة قابلة للتكرار لتعزيز أبحاث هندسة البرمجيات المعتمدة على الوكلاء.
لا شك أن هذا التطور سيمهد الطريق لتحقيق اختراقات جديدة في مجالات تطوير التطبيقات الذكية. فما رأيكم في هذا التطور؟ شاركونا في التعليقات.
VISTA: ثورة في تطوير تطبيقات الويب عبر الذكاء الاصطناعي!
يقدم VISTA معيارًا جديدًا لتقييم قدرات الوكلاء المعتمدين على نماذج اللغات الضخمة في تطوير تطبيقات الويب. يستهدف هذا المعيار تطوير واجهات المستخدم الفعالة والم coherentes من مدخلات غير محددة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
