في عصر يتزايد فيه استخدام وكلاء الواجهات الرسومية (GUI Agents) المدعومين بتقنيات الذكاء الاصطناعي، تواجه هذه التكنولوجيا تحديات كبيرة نظراً لقلة البيانات المتاحة لتدريبها بشكل فعّال. تأتي الحلول التقليدية غالباً بتكاليف عالية بسبب الحاجة إلى التوصيف اليدوي، وهو ما يحد من إمكانية تعميم النتائج على تطبيقات متنوعة في العالم الواقع.
لكن الأمر يتغير بفضل الابتكار الجديد الذي تمثل في الإعلان عن نظام فيديو2GUI، وهو إطار عمل آلي بالكامل يهدف إلى استخراج مسارات تفاعل الواجهات الرسومية من مقاطع الفيديو غير المعلنة المتاحة على الإنترنت. يعتمد هذا النظام على استراتيجية تصفية متعددة المراحل للتأكد من جودة الفيديوهات المستخدمة، من خلال تحليل معلومات 500 مليون عنصر بيانات فيديو، ليقوم بإنشاء قاعدة بيانات ضخمة تدعى WildGUI، والتي تضم 12 مليون مسار تفاعل من أكثر من 1500 تطبيق وموقع.
لاقت الاختبارات أداءً مثيراً للإعجاب؛ إذ تم تحسين أداء نماذج Qwen2.5-VL و Mimo-VL التي تم تدريبها على هذه البيانات بنسبة تتراوح بين 5-20% في عدة اختبارات تخص grounding واجهة المستخدم وأداء الأفعال، متجاوزة بذلك الأداء القياسي الحالي.
تعتبر هذه الخطوة ثورية لعالم الذكاء الاصطناعي، حيث تفتح المجال لبحث أكثر تقدماً في تعامل الوكلاء مع واجهات المستخدم، مما يسمح بتحقيق تجارب تفاعلية أكثر سلاسة وفعالية. وسيتوفر كل من قاعدة بيانات WildGUI ونظام فيديو2GUI لدعم أبحاث المستقبل المتعلقة بوكلاء الواجهات الرسومية.
فيديو إلى واجهة المستخدم: إحداث ثورة في تدريب وكلاء واجهات المستخدم الرسومية باستخدام بيانات فيديو ضخمة
كشف باحثون عن إطار عمل مبتكر يدعى فيديو2GUI يهدف إلى تحويل مقاطع الفيديو غير المعلنة إلى بيانات لتدريب وكلاء الواجهات الرسومية. هذا النظام يوفر قاعدة بيانات ضخمة تدعى WildGUI تضم 12 مليون مسار تفاعل من أكثر من 1500 تطبيق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
