شهدت نماذج اللغات متعددة الوسائط (Multimodal Large Language Models - MLLMs) تقدماً ملحوظاً في تطوير وكلاء المحمول، لكن لقدرتها كان لها حدود في النمط التفاعلي، حيث كانت تتبع الأوامر الموجهة من المستخدم فقط. الان، تُظهر الحاجة المتزايدة إلى الذكاء الاستباقي، الذي يتيح للوكلاء توقُّع احتياجات المستخدمين بشكل مستقل وبدء الإجراءات بشكل تلقائي، كونه النقطة الجديدة في تطوير هذه الوكلاء.

ومع ذلك، تواجه هذه التطورات تحديات رئيسية، تتعلق بقلة المعايير التي تُعالج تعقيدات العالم الحقيقي وتسمح بالتقييم الموضوعي القابل للتنفيذ. ومن هنا، يبرز بروكتيف موبايل كمؤشر شامل، مصمم لتقدم البحث في هذا المجال بشكل منهجي.

يُعيد بروكتيف موبايل تعريف المهمة الاستباقية من خلال استنتاج النوايا الخفية للمستخدم عبر أربعة أبعاد من الإشارات السياقية على الجهاز، وإنشاء تسلسل وظائف قابل للتنفيذ من مجموعة شاملة تضم 63 واجهة برمجة تطبيقات (APIs). يحتوي المعيار على أكثر من 3,660 حالة موزعة على 14 سيناريو يمثل تعقيدات الواقع من خلال تضمين تعدد الإجابات.

لضمان أعلى مستويات الجودة، يتولى فريق مكون من 30 خبيراً تدقيق المعيار النهائي، حيث يتحققون من دقة الحقائق، والتناسق المنطقي، وقابلية التنفيذ، ويقومون بتصحيح أي مدخلات غير مطابقة. وقد أظهرت التجارب الموسعة أن نموذج Qwen2.5-VL-7B-Instruct المعدل قد حقق معدل نجاح يبلغ 19.15%، متفوقاً على o1 (15.71%) وGPT-5 (7.39%). يُشير هذا النجاح إلى أن الاستباقية تعتبر مهارة حيوية تفتقر إليها معظم النماذج الموجودة حالياً، لكنها في ذات الوقت قابلة للتعلم، مما يُبرز أهمية المعيار المقترح في تقييم هذه المهارة.