في عصر الهواتف الذكية، يتطور فهمنا للعالم الرقمي بشكلٍ مذهل. قديمة كانت الطريقة التي نعتمدها على تصور واجهات المستخدم الثابتة، ولكن الآن، نشهد نقلة نوعية في القدرة على فهم الأفعال الديناميكية. هنا يأتي دور نموذج Teach VLM، الذي يقوم بتحويل الانتقالات البصرية إلى معرفة تشغيلية، يتم وصفها كجمل طبيعية قصير تفصل أنواع الأفعال، العناصر المستهدفة، الحجج النصية، وترتيب التنفيذ.
تواجه النماذج الحالية تحديات كبيرة في استنتاج العمليات الكامنة بشكل دقيق، بسبب تنوع تصاميم الواجهات البينية (User Interfaces) عبر التطبيقات. ولكن مع ظهور نموذج Teach VLM، أصبح بالإمكان استخراج وتحليل اللحظات الحاسمة من فيديوهات العروض. لقد طور الباحثون أيضًا آلية لجمع البيانات بشكل منهجي لدعم هذا النموذج وتعزيز فعاليته.
ولإجراء تقييم دقيق، تم إنشاء مقياس Benchmark خاص بشاشات الهواتف الذكية. وبفضل تقنية Teach-and-Repeat، يمكن للمعرفة التشغيلية المولدة أن تعمل كمرجع إجرائي مرئي، مما يساعد وكلاء التنفيذ المعتمدين على الشاشة في تأدية مهامهم بكفاءة أعلى. ويظهر ذلك جليًا من خلال التقييمات الواسعة التي تؤكد تفوق نموذج Teach VLM على النماذج المنافسة.
في تجربة تم إجراؤها على نظام Android، كشفت النتائج عن تحسينات ملحوظة في نسبة نجاح المهام. هذا التقدم يقدم مسارًا عمليًا من العروض الخام إلى أتمتة المهام القابلة لإعادة الاستخدام.
تعليم وتكرار: استخراج المعرفة التشغيلية بدقة من شاشات الهواتف الذكية لتمكين وكلاء الواجهة الرسومية
تمثل تقنية Teach VLM تطورًا ملحوظًا في فهم العمليات على شاشات الهواتف الذكية، حيث تحول فيديوهات العروض إلى معرفة تشغيلية مفهومة. هذه التقنية توفر نموذجًا قويًا لوكلاء الواجهة الرسومية، مما يسهل تنفيذ المهام بكفاءة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
