تعد منصة WebRISE طفرة نوعية في كيفية تقييم تفاعلات المحتوى الرقمي الناتج عن نماذج اللغات الضخمة (MLLMs), حيث باتت المعايير التقليدية غير كافية لفهم كيفية عمل صفحات الويب بشكل فعّال.
تمتد WebRISE على 442 مهمة تشمل خمسة عناصر إدخال (النص، Markdown، الرسم، الصورة، والفيديو). وقد نجحت في تجميع متطلبات المهام في ما يُعرف بـ Interaction Contract Graphs (ICGs)، التي تتمحور حول الحالات القابلة للمراقبة، وانتقالات نوايا المستخدم، وإثباتات DOM/المرئية، مما يسمح بتنفيذ تصفح مستقل عن الأنظمة المستخدمة.
قد أظهرت النتائج أن حتى أقوى نماذج اللغات الضخمة لا تصل إلى أكثر من 65.6% في صلاحية الانتقال و66.3% في تغطية المتطلبات، الأمر الذي يُظهر أن جودة المحتوى المرئي لا تعكس سلوك الصفحة بدقة. على سبيل المثال، كانت نتائج نموذج Qwen3.6-35B-A3B على Markdown تُظهر تباينًا ملحوظًا بين القيمة والانتقال.
ومن المثير للاهتمام أن الفيديو أعطى أقوى إشارة تفاعلية، بزيادة قدرها +10.6 نقطة مئوية في التغطية الضمنية مقارنة بالنص.
تظهر اختبارات حقن العيوب أن تقييمات ICGs تكشف عن الأخطاء في الحالات بمعدل يفوق 2-16 مرة مقارنة بتقييمات النقاط المرجعية التقليدية.
باختصار، تقدم WebRISE إطاراً جديداً يجمع بين دقة التقييم وفهم أفضل لتفاعلات المستخدم، مما يعد بتغييرات جذرية في كيفية تحليل وتقييم تكنولوجيا المحتوى الذكي.
اكتشف WebRISE: ثورة في تقييم تفاعلات الذكاء الاصطناعي عبر الإنترنت!
يقدم WebRISE نهجًا مبتكرًا لتقييم تفاعلات المحتوى الذي يتم إنشاؤه بواسطة نماذج اللغات الضخمة (MLLMs)، من خلال التركيز على المتطلبات الناتجة عن التفاعل. اكتشف كيف تتجاوز هذه التقنية حدود التقييم التقليدي بمزايا قياسية جديدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
