فيديو إلى واجهة المستخدم: إحداث ثورة في تدريب وكلاء واجهات المستخدم الرسومية باستخدام بيانات فيديو ضخمة

في عصر يتزايد فيه استخدام وكلاء الواجهات الرسومية (GUI Agents) المدعومين بتقنيات الذكاء الاصطناعي، تواجه هذه التكنولوجيا تحديات كبيرة نظراً لقلة البيانات المتاحة لتدريبها بشكل فعّال. تأتي الحلول التقليدية غالباً بتكاليف عالية بسبب الحاجة إلى التوصيف اليدوي، وهو ما يحد من إمكانية تعميم النتائج على تطبيقات متنوعة في العالم الواقع.

لكن الأمر يتغير بفضل الابتكار الجديد الذي تمثل في الإعلان عن نظام فيديو2GUI، وهو إطار عمل آلي بالكامل يهدف إلى استخراج مسارات تفاعل الواجهات الرسومية من مقاطع الفيديو غير المعلنة المتاحة على الإنترنت. يعتمد هذا النظام على استراتيجية تصفية متعددة المراحل للتأكد من جودة الفيديوهات المستخدمة، من خلال تحليل معلومات 500 مليون عنصر بيانات فيديو، ليقوم بإنشاء قاعدة بيانات ضخمة تدعى WildGUI، والتي تضم 12 مليون مسار تفاعل من أكثر من 1500 تطبيق وموقع.

لاقت الاختبارات أداءً مثيراً للإعجاب؛ إذ تم تحسين أداء نماذج Qwen2.5-VL و Mimo-VL التي تم تدريبها على هذه البيانات بنسبة تتراوح بين 5-20% في عدة اختبارات تخص grounding واجهة المستخدم وأداء الأفعال، متجاوزة بذلك الأداء القياسي الحالي.

تعتبر هذه الخطوة ثورية لعالم الذكاء الاصطناعي، حيث تفتح المجال لبحث أكثر تقدماً في تعامل الوكلاء مع واجهات المستخدم، مما يسمح بتحقيق تجارب تفاعلية أكثر سلاسة وفعالية. وسيتوفر كل من قاعدة بيانات WildGUI ونظام فيديو2GUI لدعم أبحاث المستقبل المتعلقة بوكلاء الواجهات الرسومية.

فيديو إلى واجهة المستخدم: إحداث ثورة في تدريب وكلاء واجهات المستخدم الرسومية باستخدام بيانات فيديو ضخمة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

دراما قصيرة من الصين: كيف تحولت إلى آلات إنتاج محتوى ذكي!

GraphBit: ابتكار مثير في تنسيق العمل للذكاء الاصطناعي يعيد تعريف التحكم في الوكلاء

استخدام البرمجة المختلطة لتحقيق تحسينات في وجبات الطعام الشخصية: حلول مبتكرة لمشاكل التغذية