في عالم الذكاء الاصطناعي، أثبتت نماذج تحديد مواقع واجهات الاستخدام (GUI grounding models) دقتها المثيرة للإعجاب بنسبة تتجاوز 85% عند تقييمها على المعايير القياسية. ولكن... هناك مشكلة خفية تكمن وراء هذه الأرقام المبهرة.
تظهر دراسة جديدة نشرت على arXiv تحت عنوان "GUI-Perturbed" أن دقة هذه النماذج تتعرض لانخفاض حاد يتراوح بين 27-56 نقطة مئوية عندما تتطلب التعليمات استخدام مهارات التفكير المكاني بدلاً من تعيين الأسماء المباشرة للعناصر. والجدير بالذكر أن المعايير الحالية لا تأخذ هذا في الاعتبار، لأنها تدرب كل لقطة شاشة بتعليمات ثابتة واحدة.
إطار العمل الجديد المبتكر المُعرف بـ GUI-Perturbed يعتمد على التغييرات المتسقة في المشاهد المرئية والتعليمات، مما يتيح تقييم القوة الحقيقية للتحديد (grounding) في الظروف المختلفة.
من خلال تجربة ثلاثة نماذج تتضمن 7 مليار معلمة من نفس البنية، اكتشفت النتائج أن التعليمات التي تتطلب العلاقة تسفر عن انهيار نظامي في الدقة عبر جميع النماذج. بالإضافة إلى ذلك، فإن زيادة تكبير المتصفح بنسبة 70% تؤدي إلى تدهور ملحوظ في الأداء. والأسوأ من ذلك، أن استخدام تقنيات Fine-Tuning من فئة Rank-8 LoRA مع البيانات المعززة يتسبب في تدهور الأداء بدلاً من تحسينه.
تقدم هذه الدراسة إشارات تشخيصية حيوية حول أي محاور معينة تتأثر: التفكير المكاني، القوة البصرية، وضبط التفكير. لذا، إذا كنت تعمل في مجال تطوير الذكاء الاصطناعي، يمكن أن تكون هذه المعلومات حاسمة لشكل تطوير نماذج تحديد مواقع واجهات الاستخدام في المستقبل.
لأول مرة، توفر الدراسة مجموعة بيانات جديدة، وقناة لزيادة المعاينة، ونموذج مدرب جيدًا، مما يوفر أدوات قيمة للباحثين في هذا المجال. هل ستصبح هذه الأدوات المحرك الأساسي للإصلاح اللازم في تصميم النماذج المستقبلية؟
كشف هشاشة نماذج تحديد مواقع واجهات الاستخدام: ثورة جديدة في قياس الدقة
تظهر دراسة جديدة أن نماذج تحديد مواقع واجهات الاستخدام قد تبدو دقيقة بنسبة 85%، لكنها تتعرض لانهيار كبير عند اختبار مهارات التفكير المكاني. يقدم إطار العمل GUI-Perturbed طريقة مبتكرة لتقييم قوة هذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
