تسعى الأبحاث الأخيرة في مجال الذكاء الاصطناعي إلى تعزيز قدرات الوكالات الحاسوبية (Computer-Use Agents) عبر تقنيات جديدة في تعلم التعزيز القابل للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR). ومع ذلك، كانت هناك تحديات كبيرة تتعلق بتوفير بيانات تدريب قابلة للتوسع ومكافآت موثوقة.
للتغلب على هذه العقبة، تم تقديم **CUA-Gym**، وهو نظام مبتكر يستند إلى مبدأ التوليد المشترك لتعليمات المهام، وحالات البيئة، ودوال المكافأة. هنا، يعمل وكيل التوليد (Generator) على إنشاء حالات البيئة الأولية والنهائية، بينما يقوم وكيل آخر، وهو وكيل التمييز (Discriminator)، بكتابة دالة المكافأة بناءً على مواصفات المهمة.
تم تصميم **CUA-Gym-Hub** أيضًا لتقديم مجموعة واسعة من التطبيقات المقلدة عالية الدقة، والتي تستند حقيقتها إلى توزيعات استخدام البرمجيات الواقعية. وبهذا، تمكن فريق البحث من توسيع نطاق بيانات RLVR لوكالات CUA بمقدار هائل.
أظهرت نتائج **CUA-Gym** أن نماذج CUA-Gym-A3B وCUA-Gym-A17B تحقق أداءً مذهلاً يصل إلى 72.6% على معيار OSWorld-Verified، مما يعكس قدرة خارقة على تحسين الأداء في ظروف متنوعة من البيانات والبيئات.
لضمان استدامة هذا الإنجاز، سيقوم فريق البحث بإصدار كود المصدر الكامل لنظام التوليد، ومجموعة البيانات، وبيئات CUA-Gym-Hub، مما يضمن أن هذه الابتكارات ستظل متاحة للتطوير المستقبلي في مجتمع الذكاء الاصطناعي.
CUA-Gym: ثورة في بيئات التدريب القابلة للتحقق للوكالات الحاسوبية!
تقدم CUA-Gym تحوّلاً مذهلاً في عالم الذكاء الاصطناعي، حيث يعتمد على تعلم التعزيز القابل للتحقق (RLVR) ليحقق إنجازات في مجالات متعددة. بفضل سلسلة من الابتكارات، أصبحت البيئة التدريبية أكثر تنوعاً وكفاءة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
