في عالم التكنولوجيا المتسارع، تعتبر واجهات المستخدم الرسومية (GUI) نقطة تفاعل رئيسية للمستخدمين على الويب والهواتف المحمولة وأجهزة الكمبيوتر. ومع تقدم نماذج الرؤية واللغة الكبيرة (Large Vision-Language Models) في تطوير تلك الوحدات الذكية، أصبح الوصول إلى تفاعلات قابلة للتنفيذ تحديًا كبيرًا خاصةً في المهام التي تتطلب دقة متناهية.

يطرح نظام PAGER حلاً متقدماً، مستهدفاً نقاطاً دقيقة في فضاء اللوحة المستمرة بدلاً من الاعتماد على مناطق تحمّل مرنة. إذ يُظهر البحث أن الأخطاء الصغيرة في التقدير يمكن أن تؤدي إلى فشل هندسي متسلسل، مما يعيق التنفيذ الإيجابي للمهام داخل الأجهزة.

لتقييم فعالية هذا النظام، تم تطوير مجموعة من الاختبارات يُطلق عليها PAGE Bench، والتي تتضمن 4,906 مشكلة أكثر من 224,000 حركة GUI موثوقة على مستوى البكسل. وتعتبر هذه المساعي نقطة تحول في تحليل الأداء، حيث يكشف البحث عن فجوة كبيرة في انتظام التنفيذ، رغم تمتع النماذج المتعددة النماذج (Multimodal Models) بدقة عالية تصل إلى 88%.

لكن PAGER جاء ليغلق هذه الفجوة، محققا زيادة في نجاح المهام بمعدل 4.1 ضعف مقارنة بالنماذج التقليدية، حيث ارتفع معدل النجاح من أقل من 9% إلى أكثر من 62%، مما يؤسس لمرحلة جديدة في التحكم بدقة النقاط في تطبيقات الواجهات الرسومية. إن مستقبل تجربة المستخدم يبدو أكثر إشراقًا مع الابتكارات من نوعية PAGER، والخطوات القادمة ستكون بلا شك مثيرة جداً.