في عالم متزايد التعقيد من الخدمات الرقمية، يبرز وكلاء استخدام الحاسوب (CUAs) كأدوات تحوِّل طريقة كنت نؤدي بها الأعمال. لكن، كيفية تدريب هؤلاء الوكلاء تعدّ تحدياً كبيراً، حيث يتطلب تدخلات فعّالة وزمنية في بيئات حقيقية مما قد يكون مكلفاً ومعقداً.

تعالج الدراسة الجديدة نظام PRO-CUA، وهو إطار يُعدُّ هائلاً لتحسين طريقة تدريب هؤلاء الوكلاء. هذا النظام يتجاوز العديد من القيود التي تواجه الأساليب السابقة، مثل الاختناقات الناتجة عن تقنيات التقليد السلوكي غير الفعالة، ويقدم بديلاً قوياً يعتمد على التعلم المعزز بمكافآت عملية.

ما يميز PRO-CUA هو قدرته على فصل التفاعل مع البيئة عن تحسين السياسات، مما يمنح الوكلاء القدرة على جمع البيانات من تجربتهم الخاصة وتوليد خيارات متعددة للقرارات في كل حالة. باستخدام نموذج مكافأة العمليات (Process Reward Model - PRM)، تستطيع هذه الوكلاء تلقي ملاحظات عميقة تساعدهم في تحسين أدائهم بشكل ديناميكي وسريع.

تظهر التجارب على معايير الويب الحية أن PRO-CUA ليس فقط فعالًا ولكنه يُحدث تحولاً كبيرًا في طريقة اكتساب وكالات الذكاء الاصطناعي للمعرفة والتعلم. لهذا، يمكن القول إن PRO-CUA هو حل مستقبلية لوكلاء الاستخدام الرقمي في بيئات العمل المعقدة.