في عصر الهواتف الذكية، يتطور فهمنا للعالم الرقمي بشكلٍ مذهل. قديمة كانت الطريقة التي نعتمدها على تصور واجهات المستخدم الثابتة، ولكن الآن، نشهد نقلة نوعية في القدرة على فهم الأفعال الديناميكية. هنا يأتي دور نموذج Teach VLM، الذي يقوم بتحويل الانتقالات البصرية إلى معرفة تشغيلية، يتم وصفها كجمل طبيعية قصير تفصل أنواع الأفعال، العناصر المستهدفة، الحجج النصية، وترتيب التنفيذ.

تواجه النماذج الحالية تحديات كبيرة في استنتاج العمليات الكامنة بشكل دقيق، بسبب تنوع تصاميم الواجهات البينية (User Interfaces) عبر التطبيقات. ولكن مع ظهور نموذج Teach VLM، أصبح بالإمكان استخراج وتحليل اللحظات الحاسمة من فيديوهات العروض. لقد طور الباحثون أيضًا آلية لجمع البيانات بشكل منهجي لدعم هذا النموذج وتعزيز فعاليته.

ولإجراء تقييم دقيق، تم إنشاء مقياس Benchmark خاص بشاشات الهواتف الذكية. وبفضل تقنية Teach-and-Repeat، يمكن للمعرفة التشغيلية المولدة أن تعمل كمرجع إجرائي مرئي، مما يساعد وكلاء التنفيذ المعتمدين على الشاشة في تأدية مهامهم بكفاءة أعلى. ويظهر ذلك جليًا من خلال التقييمات الواسعة التي تؤكد تفوق نموذج Teach VLM على النماذج المنافسة.

في تجربة تم إجراؤها على نظام Android، كشفت النتائج عن تحسينات ملحوظة في نسبة نجاح المهام. هذا التقدم يقدم مسارًا عمليًا من العروض الخام إلى أتمتة المهام القابلة لإعادة الاستخدام.