تسير شركة Xiaomi بخطوات ثابتة نحو مستقبل أكثر ذكاءً، حيث أطلقت نموذجها الجديد Xiaomi-GUI-0. يعتمد هذا النموذج على نماذج رؤية اللغة (vision-language models) ليتمكن من تنفيذ المهام بشكل كامل للمستخدمين من خلال إجراءات تفاعلية مثل اللمس، السحب، إدخال النص، والتنقل. لكن، ما يميز Xiaomi-GUI-0 هو أن مسار تدريبه وتقييمه تم داخل بيئات حقيقية، بدلاً من البيئات التقليدية ومحاكاة المهام.

في الوقت الذي تدرب فيه وكلاء واجهات المستخدم الحالية على بيانات غير واقعية، كانت Xiaomi تدرك الفجوة بين الأداء العنصري والتجربة الحياتية. على مدار مسيرتها الجديدة، قامت الشركة بتطوير نموذج يعمل ضمن حلقة مغلقة للأجهزة الحقيقية، حيث يتم دمج التجارب الفعلية مع مختبرات الدعم. يعزز هذا النموذج التعلم عبر ثلاثة مراحل: تحسين مشرف، التعلم التعزيزي على مستوى الخطوة، والتعلم التعزيزي الوكلي، مما يساعد على تحويل مسارات الفشل إلى إجراءات تصحيحية واضحة.

تم تقييم Xiaomi-GUI-0 بنجاح على معايير عامة مثل RealMobile، حيث سجل 72.0% من النجاح، و78.9% على AndroidWorld. يتسم النموذج بتحسين ملحوظ في الاستقرار والتنفيذ في الحالات غير الطبيعية، مما يجعل تجربة المستخدم أكثر سلاسة وتفاعلاً في العالم الحقيقي.

في ختام مقالنا، يظل السؤال: كيف يمكن أن تؤثر هذه التقنية الجديدة على مستقبل تفاعلنا مع التكنولوجيا؟ لا تترددوا في مشاركتنا آراءكم وتعليقاتكم أدناه!