في عالم الذكاء الاصطناعي، أثبتت نماذج تحديد مواقع واجهات الاستخدام (GUI grounding models) دقتها المثيرة للإعجاب بنسبة تتجاوز 85% عند تقييمها على المعايير القياسية. ولكن... هناك مشكلة خفية تكمن وراء هذه الأرقام المبهرة.

تظهر دراسة جديدة نشرت على arXiv تحت عنوان "GUI-Perturbed" أن دقة هذه النماذج تتعرض لانخفاض حاد يتراوح بين 27-56 نقطة مئوية عندما تتطلب التعليمات استخدام مهارات التفكير المكاني بدلاً من تعيين الأسماء المباشرة للعناصر. والجدير بالذكر أن المعايير الحالية لا تأخذ هذا في الاعتبار، لأنها تدرب كل لقطة شاشة بتعليمات ثابتة واحدة.

إطار العمل الجديد المبتكر المُعرف بـ GUI-Perturbed يعتمد على التغييرات المتسقة في المشاهد المرئية والتعليمات، مما يتيح تقييم القوة الحقيقية للتحديد (grounding) في الظروف المختلفة.

من خلال تجربة ثلاثة نماذج تتضمن 7 مليار معلمة من نفس البنية، اكتشفت النتائج أن التعليمات التي تتطلب العلاقة تسفر عن انهيار نظامي في الدقة عبر جميع النماذج. بالإضافة إلى ذلك، فإن زيادة تكبير المتصفح بنسبة 70% تؤدي إلى تدهور ملحوظ في الأداء. والأسوأ من ذلك، أن استخدام تقنيات Fine-Tuning من فئة Rank-8 LoRA مع البيانات المعززة يتسبب في تدهور الأداء بدلاً من تحسينه.

تقدم هذه الدراسة إشارات تشخيصية حيوية حول أي محاور معينة تتأثر: التفكير المكاني، القوة البصرية، وضبط التفكير. لذا، إذا كنت تعمل في مجال تطوير الذكاء الاصطناعي، يمكن أن تكون هذه المعلومات حاسمة لشكل تطوير نماذج تحديد مواقع واجهات الاستخدام في المستقبل.

لأول مرة، توفر الدراسة مجموعة بيانات جديدة، وقناة لزيادة المعاينة، ونموذج مدرب جيدًا، مما يوفر أدوات قيمة للباحثين في هذا المجال. هل ستصبح هذه الأدوات المحرك الأساسي للإصلاح اللازم في تصميم النماذج المستقبلية؟