حققت نماذج اللغات الكبيرة متعددة الاستخدامات (Multimodal Large Language Models - MLLMs) تقدمًا ملحوظًا في مجال التفكير متعدد الأبعاد وبرمجة الأكواد، مما أسس لحقبة جديدة في تطوير واجهات المستخدم. هذه النماذج تمتلك القدرة الفائقة على تحويل التصاميم المرئية مباشرةً إلى أكواد قابلة للتنفيذ، مما يساهم بشكل كبير في زيادة كفاءة ومرونة تطوير الويب.

اليوم، تعتبر التطبيقات الحديثة للويب ديناميكية وتفاعلية، مما يتطلب تفاعلات متكررة بين المستخدم والصفحات. ومع ذلك، تركز المقاييس الحالية بشكل أساسي على تقييم برمجة الأكواد للصفحات الثابتة، متجاهلة التفاعلات المعقدة التي تحدث في التطبيقات الحقيقية. كما أن معايير التقييم المتبعة تقتصر غالبًا على دقة الصورة وبنية الكود، مما يترك فراغًا كبيرًا في تقييم الاتساق التفاعلي بين الصفحات المولدة والمرجعية.

للتغلب على هذه العوائق، تم تقديم WebIGBench، وهو المعيار الأول من نوعه الذي يهدف إلى تقييم برمجة الأكواد للصفحات التفاعلية ذات التفاعلات المعقدة. من خلال دمج مسارات التفاعل المصممة يدويًا مع الأتمتة البصرية، تم جمع 103 صفحات ويب معقدة من مواقع حقيقية، مما يغطي 5 أنواع شائعة من الإجراءات التفاعلية (مثل: النقر وإدخال البيانات) والتي تشمل 871 إجراءً تفاعليًا متميزًا.

علاوةً على ذلك، تم اقتراح خط أنابيب تقييم مبتكر يتناول الفجوة في التقييم الآلي للعملية التفاعلية. وقد أظهرت التجارب الشاملة على عدة نماذج تمثيلية لMLLMs حدود أداء النماذج الحالية في برمجة أكواد صفحات الويب التفاعلية باستخدام WebIGBench. المعيار المقترح متاح على الإنترنت، مما يتيح للباحثين والمطورين استكشاف الفجوات وتحسين النماذج لتلبية احتياجات التطوير الحديثة.

ما رأيكم في هذا التطور الجديد؟ هل ترون أنه سيساهم في تعزيز أداء تطوير الويب؟ شاركونا في التعليقات!