في عالم التكنولوجيا الحديثة، تسعى الأبحاث إلى تمكين الوكلاء الجوالين (Mobile Agents) من التفاعل بفعالية مع البيئات المحيطة بهم وفقاً للتعليمات البشرية. ومع ذلك، فإن استخدام نماذج اللغة البصرية (Vision-Language Models) في هذا السياق قد يواجه تحديات تتعلق بالسلامة والأمان، حيث قد تؤدي الفجوات في فهم النماذج أو قدراتها الاستدلالية إلى مخاطر محتملة.

لتجاوز هذه العقبة، تم تقديم منصة InquireBench، وهي معيار متكامل يهدف إلى تقييم قدرة الوكلاء الجوالين في التفاعل الآمن مع البشر واستراتيجيات الاستفسار النشطة، حيث يشتمل على 5 فئات و22 تصنيفاً فرعياً، ولا تزال معظم الوكلاء المعتمدين على VLMs يظهرون نتائج أداء ضعيفة قرب الصفر.

كما تم الإعلان عن نموذج InquireMobile، الذي يعتمد على التعلم المعزز (Reinforcement Learning) ويتميز بآلية تفكير استباقية قبل اتخاذ القرار. يقدم هذا النموذج استراتيجية تدريب ذات مرحلتين، ويحقق تحسناً مذهلاً بنسبة 46.8% في معدل نجاح الاستفسارات، مما يجعله في صدارة النماذج المتاحة.

كما سيتم فتح مصدر جميع مجموعات البيانات والنماذج وكود التقييم لتيسير التطوير في الأوساط الأكاديمية والصناعية، مما يعزز من الشراكة بين التكنولوجيا والابتكار في هذا المجال الحيوي.