تشهد مجالات الذكاء الاصطناعي صعوبات منهجية في تقييم عملاء استخدام الكمبيوتر (Computer Use Agents - CUAs) ضمن البيئات التفاعلية، حيث تكتشف الأبحاث الحديثة أن بعض النماذج الرائدة تتجاوزها تقنيات بسيطة مثل سكربت إعادة التشغيل بحجم 1 ميغابايت. هذا السكربت يقوم بتنفيذ تسلسل من الإجراءات المسجلة دون الحاجة لمراقبة الشاشة. ما يثير الدهشة أن نجاح هذه الطريقة يتساوى في النهاية مع نسبة نجاح نموذج المصدر في بيئات ذات طابع حتمي.

تعاد الأسباب وراء إخفاقات تقييم CUAs إلى مشكلتين رئيسيتين: تصميم بيئات غير مبدئي (static) وتقييم منهجي غير دقيق. في هذا السياق، طرحت الدراسة مبادئ PRISM الخمسة لتصميم بيئات CUAs، التي تشمل: التحقق المميز، والبيئات الواقعية، وتكوينات موثوقة، والتنفيذ داخل صندوق أمان، وتنوع متعدد العوامل.

ولمعالجة مشكلات التقييم، تم تطوير إطار عمل يجمع بين فترات ثقة Wilson score مع تقنية bootstrap الهرمية، مما يمنحنا فترات ثقة تعكس بشكل سليم الهيكل المتداخل لمعايير CUAs.

ختامًا، تؤكد النتائج أن تطبيق تصميم بيئي مبدئي ومنهجية تقييم صارمة ليس مجرد تحسينات اختيارية، بل متطلبات أساسية للبحث الفعال في مجال CUAs.