في عالم الذكاء الاصطناعي وتطوير البرمجيات، تعد واجهات المستخدم (GUI) جزءاً أساسياً لا يمكن تجاهله. وقد ظهرت تقنية 'توسيع وقت الاختبار' (Test-Time Scaling) كمقاربة جديدة وواعدة في تقييم أداء هذه الواجهات من خلال استخدام نموذج نقدي. لكن، ما الذي يجعل هذا النموذج مميزاً؟
العديد من نماذج النقد الحالية تعتمد على التصنيف الثنائي، مما يؤدي إلى مشكلة في تمييز بين الأفعال الصحيحة والفوضى المزعجة. جاء التحليل الذي أجريناه ليكشف عن وجود انخراط خطير في هذه النماذج، حيث تصبح النقاط التي تتعلق بالأفعال الصحيحة والأفعال المحتملة ولكن غير الصحيحة متداخلة بشكل لا يمكن تفكيكه. نحمل هذا الفشل إلى اثنين من العيوب البنيوية: انهيار القدرة التصميمية (Affordance Collapse) - حيث يتم ضغط الفضاء التصميمي الهرمي إلى تسميات 0/1؛ وحساسية الضوضاء (Noise Sensitivity) - حيث تتناسب الأهداف الثنائية بشكل زائد مع الحدود الضوضائية.
لذليل هذه التحديات، نقدم تقنية BBCritic (نموذج النقد ما بعد الثنائية)، وهي تغيير جذري يستند إلى فرضية التكافؤ الوظيفي. من خلال التعلم المتبايني على مرحلتين، ينسق BBCritic التعليمات والأفعال في فضاء تصميم مشترك، مستعيدًا الهيكل الهرمي الذي تم تسويته بواسطة الإشراف الثنائي. كما قدمنا أيضاً BBBench، وهو أول معيار نقدي للواجهات يجمع بين مساحة أفعال كثيفة وتصنيف هرمي من أربعة مستويات، مما يمكن من تقييم دقيق للنقاط.
أظهرت النتائج التجريبية أن BBCritic-3B، الذي تم تدريبه دون أي توضيح إضافي، يتفوق على النماذج الثنائية SOTA ذات 7 مليار معلمة. كما أنه يُظهر قابلية انتقال قوية عبر المنصات والمهام، مما يدعم رؤيتنا المنهجية: فإن نقد واجهات المستخدم يُعتبر أساساً مشكلة تعلم مقياسي وليس تصنيف.
تجاوز الثنائية: إعادة تأطير انتقاد واجهات المستخدم كتنسيق دلالي مستمر
تمثل تقنية 'توسيع وقت الاختبار' (Test-Time Scaling) ثورة في كيفية تقييم واجهات المستخدم من خلال نموذج نقدي مبتكر. الكشف عن عيوب أساسية في نماذج النقد التقليدية يعيد تصور كيفية تعامل الآلات مع واجهات المستخدم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
