تعد منصة WebRISE طفرة نوعية في كيفية تقييم تفاعلات المحتوى الرقمي الناتج عن نماذج اللغات الضخمة (MLLMs), حيث باتت المعايير التقليدية غير كافية لفهم كيفية عمل صفحات الويب بشكل فعّال.

تمتد WebRISE على 442 مهمة تشمل خمسة عناصر إدخال (النص، Markdown، الرسم، الصورة، والفيديو). وقد نجحت في تجميع متطلبات المهام في ما يُعرف بـ Interaction Contract Graphs (ICGs)، التي تتمحور حول الحالات القابلة للمراقبة، وانتقالات نوايا المستخدم، وإثباتات DOM/المرئية، مما يسمح بتنفيذ تصفح مستقل عن الأنظمة المستخدمة.

قد أظهرت النتائج أن حتى أقوى نماذج اللغات الضخمة لا تصل إلى أكثر من 65.6% في صلاحية الانتقال و66.3% في تغطية المتطلبات، الأمر الذي يُظهر أن جودة المحتوى المرئي لا تعكس سلوك الصفحة بدقة. على سبيل المثال، كانت نتائج نموذج Qwen3.6-35B-A3B على Markdown تُظهر تباينًا ملحوظًا بين القيمة والانتقال.

ومن المثير للاهتمام أن الفيديو أعطى أقوى إشارة تفاعلية، بزيادة قدرها +10.6 نقطة مئوية في التغطية الضمنية مقارنة بالنص.

تظهر اختبارات حقن العيوب أن تقييمات ICGs تكشف عن الأخطاء في الحالات بمعدل يفوق 2-16 مرة مقارنة بتقييمات النقاط المرجعية التقليدية.

باختصار، تقدم WebRISE إطاراً جديداً يجمع بين دقة التقييم وفهم أفضل لتفاعلات المستخدم، مما يعد بتغييرات جذرية في كيفية تحليل وتقييم تكنولوجيا المحتوى الذكي.