في عالم تطوير واجهات الاستخدام المستندة إلى الذكاء الاصطناعي، تتزايد الحاجة إلى أدوات تقنية تساهم في تحسين الأداء والكفاءة. هذا هو محور الورقة البحثية الجديدة التي تحمل عنوان AquaUI، والتي تتناول مسألة المعلومات غير المتناظرة في لقطات الشاشة.

تتسم النماذج متعددة الوسائط الكبيرة (Large Multimodal Models) بدورها البارز في دعم نماذج عملاء الواجهات الرسومية، إذ يتم إدخال لقطات الشاشة عالية الدقة في مركز الطلبات خلال كل خطوة. ومع ذلك، تظهر هذه اللقطات عدم تجانس كبير في كثافة المعلومات: حيث يمكن أن تحتوي مناطق كبيرة على معلومات قليلة وتبدو متشابهة بصريًا، في حين تتطلب النصوص والأيقونات الأساسية دقة بصرية عالية.

الحل يأتي مع AquaUI، الذي يمثل طريقة لتقليل الرموز في وقت الاستدلال دون الحاجة إلى مزيد من التدريب. يعتمد AquaUI على بناء شجرة رباعية (quadtree) قابلة للتكيف لكل لقطة شاشة، حيث يحتفظ برمز تم دمجه بشكل تمثيلي لكل ورقة في الشجرة الرباعية.

ما يميز AquaUI هو الحفاظ على مواقع الرموز المحتفظ بها عبر جميع المراحل، مما يضمن تماسكًا في ترميز المواقع. لتعزيز التماسك الزمني خلال تفاعلات الواجهات المتعددة الخطوات، تم اقتراح خوارزمية شجرة رباعية شرطية، تستفيد من استمرارية اللقطات المتعاقبة.

من خلال تجارب على نماذج العملاء للواجهات الرسومية المتطورة، أظهرت AquaUI تحسينات ملحوظة في توازن الدقة والكفاءة. على وجه الخصوص، سجلت زيادة قدرها 13.22% في السرعة و29.52% في تقليل الرموز البصرية، مع الحفاظ على 99.06% من أداء الرموز الكاملة. تشير هذه النتائج إلى إمكانية الاستغلال الذكي للمعلومات غير المتناظرة بشكل فعال دون الحاجة لإعادة التدريب، مما يمثل خطوة كبيرة نحو مستقبل أكثر كفاءة في تصميم الواجهات الرسومية.