في خطوة غير مسبوقة تعكس التطورات المتسارعة في عالم الذكاء الاصطناعي، تم الإعلان عن LongWebBench، وهي أداة رائدة تهدف إلى تقييم توليد صفحات الويب الطويلة من منظور هيكلي ووظيفي.

تتزايد الحاجة إلى تقييم فعالية نماذج اللغة المرئية (Vision-Language Models) في إنشاء صفحات الويب، لكن معظم الدراسات السابقة كانت تركز بشكل كبير على الصفحات القصيرة والثابتة. تأتي LongWebBench لتسد هذه الفجوة من خلال توفير معيار شامل يتضمن 490 صفحة ويب حقيقية طويلة لتقييم الدقة الهيكلية، بالإضافة إلى 507 مهمة تفاعلية ذات هدف محدد عبر 129 صفحة لتقييم الوظائف.

تمتاز LongWebBench بتطبيق بروتوكولين متكاملين: الأول يتضمن مقياس يعتمد على نماذج اللغة المرئية لتقييم التناسق الهيكلي على مدى بعيد، والثاني يعتمد على وكيل مدعوم بنموذج هيكل كائن المستندات (DOM) للتحقق من الوظيفة بشكل شامل.

وتشير التجارب التي أجريت مع نماذج VLM المتطورة إلى أن جودة الهيكل تتدهور مع زيادة طول صفحة الويب، في حين أن التوليدات التي تبدو معقولة بصرياً غالبًا ما تفشل في دعم التفاعلات متعددة الخطوات القابلة للتنفيذ. لذا، يُعد تقييم توليد صفحات الويب الطويلة من خلال التفاعل القابل للتنفيذ معيارًا أساسيًا للنظر فيه.

للاستزادة، يمكنكم زيارة [https://github.com/zheny2751-dotcom/LongWebBench] لاكتشاف التعليمات البرمجية والبيانات المتعلقة بهذا الابتكار المثير. كيف ترون مستقبل توليد صفحات الويب في ظل هذه التطورات؟ شاركونا آراءكم!