تتزايد أهمية وكالات استخدام الحاسوب (Computer-Use Agents) في عصر الذكاء الاصطناعي (AI) حيث تتطلب تفاعلات المستخدم تصميماً دقيقاً يربط بين التعليمات اللغوية الطبيعية والعناصر المرئية على الشاشة. ومع أن هناك مجموعة كبيرة من البيانات الخاصة بتفاعلات الويب والهواتف المحمولة، إلا أن الموارد عالية الجودة لبيئات سطح المكتب لا تزال محدودة.
لإغلاق هذه الفجوة، تم تقديم قاعدة بيانات GroundCUA، والتي تُعد واحدة من أكبر مجموعات البيانات التي تم تطويرها خصيصًا لأغراض التدريب في بيئات سطح المكتب. تتضمن GroundCUA تجارب بشرية متقدمة لـ 87 تطبيقًا عبر 12 فئة، مع 56 ألف لقطة شاشة تم توثيق كل عنصر على الشاشة بعناية، مما يضيف إلى إجمالي يزيد عن 3.56 مليون توثيق تم التحقق منه بواسطة خبراء.
تُستخدم هذه البيانات لتوليد تعليمات متنوعة تعكس مجموعة واسعة من المهام الواقعية، مما يوفر بيانات عالية الجودة لتدريب النماذج. من خلال GroundCUA، تم تطوير عائلة نماذج GroundNext، التي تقوم بربط التعليمات بالعناصر المستهدفة في واجهات المستخدم. عند المقاييس 3B و7B، تحقق GroundNext نتائج رائدة في خمسة مقاييس باستخدام تحسين مُراقب، مع الحاجة إلى أقل من عشر معطيات التدريب المستخدمة في الأبحاث السابقة.
أما عبر التدريب المعزز بعد السلوكيات، فقد تم تحسين الأداء بشكل أكبر. وعند التقييم في البيئة الوكالية على معيار OSWorld باستخدام التخطيط o3، حققت GroundNext نتائج مشابهة أو متفوقة على النماذج التي تم تدريبها باستخدام بيانات أكثر بكثير. تُظهر هذه النتائج الدور الحيوي لمجموعات البيانات عالية الجودة المستندة إلى خبرات الخبراء في دفع تقدم وكالات استخدام الحاسوب العامة نحو آفاق جديدة.
تطوير وكالات استخدام الحاسوب: كيف تساهم بيانات التدريب المتقدمة في تحسين الأداء؟
يعتبر GroundCUA قاعدة بيانات ضخمة تهدف إلى ربط التعليمات باللغة الطبيعية بعناصر الشاشة بدقة عالية، مما يدعم تطوير وكالات استخدام الحاسوب. تتوفر هذه البيانات من خلال تجارب بشرية متقدمة، مما يفتح آفاقاً جديدة في تدريب نماذج الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
