تتزايد أهمية وكالات استخدام الحاسوب (Computer-Use Agents) في عصر الذكاء الاصطناعي (AI) حيث تتطلب تفاعلات المستخدم تصميماً دقيقاً يربط بين التعليمات اللغوية الطبيعية والعناصر المرئية على الشاشة. ومع أن هناك مجموعة كبيرة من البيانات الخاصة بتفاعلات الويب والهواتف المحمولة، إلا أن الموارد عالية الجودة لبيئات سطح المكتب لا تزال محدودة.

لإغلاق هذه الفجوة، تم تقديم قاعدة بيانات GroundCUA، والتي تُعد واحدة من أكبر مجموعات البيانات التي تم تطويرها خصيصًا لأغراض التدريب في بيئات سطح المكتب. تتضمن GroundCUA تجارب بشرية متقدمة لـ 87 تطبيقًا عبر 12 فئة، مع 56 ألف لقطة شاشة تم توثيق كل عنصر على الشاشة بعناية، مما يضيف إلى إجمالي يزيد عن 3.56 مليون توثيق تم التحقق منه بواسطة خبراء.

تُستخدم هذه البيانات لتوليد تعليمات متنوعة تعكس مجموعة واسعة من المهام الواقعية، مما يوفر بيانات عالية الجودة لتدريب النماذج. من خلال GroundCUA، تم تطوير عائلة نماذج GroundNext، التي تقوم بربط التعليمات بالعناصر المستهدفة في واجهات المستخدم. عند المقاييس 3B و7B، تحقق GroundNext نتائج رائدة في خمسة مقاييس باستخدام تحسين مُراقب، مع الحاجة إلى أقل من عشر معطيات التدريب المستخدمة في الأبحاث السابقة.

أما عبر التدريب المعزز بعد السلوكيات، فقد تم تحسين الأداء بشكل أكبر. وعند التقييم في البيئة الوكالية على معيار OSWorld باستخدام التخطيط o3، حققت GroundNext نتائج مشابهة أو متفوقة على النماذج التي تم تدريبها باستخدام بيانات أكثر بكثير. تُظهر هذه النتائج الدور الحيوي لمجموعات البيانات عالية الجودة المستندة إلى خبرات الخبراء في دفع تقدم وكالات استخدام الحاسوب العامة نحو آفاق جديدة.