في عصر يتميز بالتطور السريع للتقنيات الذكية، ظهرت الحاجة الملحة لوكالات الواجهة الرسومية الذكية (Mobile GUI Agents) التي يمكنها تشغيل الهواتف المحمولة بشكل مستقل تماماً. ومع ذلك، كانت معظم الأنظمة الحالية تركز بشكل أساسي على تحسين دقة المهام، مما جعلها تعتمد على النماذج المستضافة في السحابة لاستنتاج البيانات، مما يسبب القلق حيال الخصوصية وزيادة زمن الاستجابة.

هنا يأتي دور ابتكار MobileExplorer، إطار جديد يهدف إلى تسريع عملية الاستدلال على الأجهزة المحمولة من خلال استكشاف ذكي لعناصر واجهة المستخدم. يبرز هيكل MobileExplorer فكرة أساسية تتمثل في استغلال الوقت الطويل المتاح للنماذج القائمة على الرؤية واللغة (Vision-Language Models) من خلال إجراء استكشاف خفيف ومتوازي لعناصر واجهة المستخدم خلال عملية الاستدلال. حيث يقوم الوكيل الذكي بشكل استباقي بمسح العناصر ذات الصلة، وتسجيل هذه التجارب كذاكرة منظمة لاستعمالها لاحقاً.

لتأمين تنفيذ موثوق في البيئات النقالة الحية، يصمم فريق البحث آلية استعادة مزدوجة المستوى، تعتمد على قدرة على استعادة الحالة الأولية لواجهة المستخدم بسرعة عند فشل استراتيجية الاسترداد السريعة. وبالتالي، يتم تلخيص التجارب المستكشفة إلى تلميحات سياقية مختصرة تُدمج في المعطيات المستخدمة لتعزيز خطوات الاستدلال اللاحقة.

شملت تقييمات MobileExplorer عدة أجهزة متوفرة في السوق باستخدام معيار AndroidWorld، بالإضافة إلى مهام جديدة وأكثر تعقيدًا. وقد أسفر هذا الابتكار عن تقليل متوسط عدد خطوات الاستدلال وزمن الاستجابة الاجمالي بنسبة 23%، مع الحفاظ على أو حتى تحسين معدلات نجاح المهام بنسبة تصل إلى 5%. لمشاهدة الأداء المذهل لـ MobileExplorer في العالم الحقيقي، يمكنكم مشاهدة الفيديو على رابط الفيديو.

بينما تنتشر التقنيات الذكية بشكل متسارع، يبقى السؤال: كيف ستؤثر الابتكارات مثل MobileExplorer على المستقبل القريب لوكالات الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!