في عالم الذكاء الاصطناعي، تبرز الحاجة إلى أدوات قادرة على فهم وتنفيذ التعليمات بشكل دقيق من واجهات الاستخدام المعقدة. اليوم، نسلط الضوء على تقنية جديدة تُعرف بـ DRS-GUI، وهي إطار بحث ديناميكي يهدف إلى تحسين كيفية توجيه أدوات الذكاء الاصطناعي لعناصر واجهة المستخدم دون الحاجة إلى تدريب مسبق.
يعتمد DRS-GUI على نماذج لغوية ضخمة متعددة الوسائط (Multimodal Large Language Models - MLLMs) التي أظهرت قدرة كبيرة على تفسير التعليمات وتنفيذها. ومع ذلك، تواجه هذه النماذج صعوبة في تحديد العناصر ذات الصلة بالتعليمات ضمن لقطات شاشة ذات دقة عالية تعج بمكونات واجهة المستخدم غير ذات الصلة. من هنا جاءت فكرة DRS-GUI.
استلهم مطورو DRS-GUI من الطريقة التي يعدل بها البشر نطاق إدراكهم الديناميكي للتركيز على المناطق ذات الصلة بالمهمة على الشاشات المعقدة. هذا الإطار الجديد لا يتطلب تدريبًا مسبقًا، ويقدم "مستشعر واجهة المستخدم" الخفيف الوزن الذي يؤدي ثلاث أنواع من الأفعال الإدراكية الشبيهة بالبشر، وهي: التركيز (Focus) والتحول (Shift) والتبعثر (Scatter). عبر هذه العمليات، يستكشف DRS-GUI الواجهة ويولد مقترحات للمناطق ذات الصلة.
لتحسين عملية جدولة هذه الأفعال الديناميكية، تم تصميم مخطط أفعال يعتمد على بحث شجرة مونت كارلو (Monte Carlo Tree Search - MCTS)، والذي يساهم في تقليل العناصر الزائدة في واجهة المستخدم.
أظهرت التجارب أن DRS-GUI يحسن الأداء بنسبة تصل إلى 14% على نموذج ScreenSpot-Pro، مما يعزز من أداء النماذج العامة والمخصصة لواجهات المستخدم، مثل Qwen2.5-VL-7B وUGround-V1-7B. بهذه الطريقة، تمكن DRS-GUI من تعزيز أداء نماذج الذكاء الاصطناعي وجعلها أكثر فعالية في التعرف على العناصر المهمة في واجهات الاستخدام.
هل تعتقد أن الابتكارات مثل DRS-GUI ستحدث ثورة في كيفية تفاعلنا مع واجهات الاستخدام؟ شاركونا آرائكم في التعليقات!
اكتشاف المناطق الديناميكية في واجهات المستخدم: إطار جديد لتحسين أدوات الذكاء الاصطناعي
تقدم DRS-GUI تقنية مبتكرة لتحسين قدرة أدوات الذكاء الاصطناعي على فهم وتنفيذ التعليمات الواردة من واجهات الاستخدام. بفضل تحسينات ملحوظة، تمكنت هذه التقنية من تحقيق زيادة تصل إلى 14% في أداء نموذج ScreenSpot-Pro.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
