في عالم الذكاء الاصطناعي، تستمر الابتكارات في الدفع نحو إمكانيات جديدة تفتح آفاقاً واسعة لفهم واجهات المستخدم (GUI). ومن بين التطورات الأخيرة، تأتي تقنية VISTA (التدريب الذاتي المتحقق من وجهة نظر متسقة) التي تقودنا إلى أفق جديد من الدقة في نماذج فهم واجهات المستخدم.

تعتمد VISTA على تحسين سياسة النسب الجماعية (Group Relative Policy Optimization - GRPO) لتجاوز القيود السابقة التي كانت تواجه نماذج التعلم الآلي عند معالجة واجهات المستخدم. حيث كان يتم أخذ العينات من لقطة شاشة واحدة فقط، مما يؤدي في كثير من الأحيان إلى فشل جماعي في الحالات الصعبة أو نجاح جماعي في الحالات السهلة، مما يمنع تحقيق ميزة نسبية مفيدة.

لكن مع VISTA، تتوجه الأمور نحو التحسين. يقوم الإطار التدريبي ببناء كل مجموعة مقارنة من مشاهد متعددة تحتفظ بالعنصر المستهدف نفسه، بحيث يتم إنشاء كل مشاهدة من خلال قطع يحتفظ بعنصر الهدف مرئياً ويعيد رسم مربعه بدقة. هذا يجعل مقارنة نماذج الذكاء الاصطناعي تتم بين مدخلات متساوية دلالياً ولكن مختلفة هندسياً.

لضمان استقرار توليد الإحداثيات القصيرة دون التحول إلى تقليد غير مشروط في التعلم المعزز، تضيف VISTA أيضاً دعامة تحقق ذاتية عبر الرؤى المختلفة: وهي إجابة معيارية مُحسّنة بخسارة موزونة حسب الميزة، مستبعدة من متوسط المجموعة ومفعلة فقط عندما تنتج النموذج تدفقاً بعائد أقصى.

أظهرت التجارب عبر خمسة معايير لتأسيس واجهات المستخدم ونماذج متعددة من Qwen، أن VISTA تحسن بصفة متسقة دقة التأسيس. على سبيل المثال، رفعت Qwen3-VL 4B/8B/30B-A3B من 55.5/52.7/53.7 إلى 63.4/65.8/67.0 على ScreenSpot-Pro. كما أظهرت تحليلات المتانة دقة أضعف عرض ودRates أقل في التنبؤ.

باختصار، تقدم VISTA تحولاً جذرياً في كيفية تدريب نماذج الذكاء الاصطناعي لفهم واجهات المستخدم، مما يبشر بمستقبل أكثر نجاحاً في تطبيقات الذكاء الاصطناعي.