تُعتبر وكالات الاستخدام الحاسوبي (Computer-use Agents) واحدة من الابتكارات الرائدة في عالم تكنولوجيا المعلومات، حيث توفر مسارًا واعدًا لأتمتة البرمجيات بشكل عام. هذه الوكالات قادرة على التفاعل مباشرة مع واجهات المستخدم الرسومية (Graphical User Interfaces) بدلاً من الاعتماد على تكاملات تقليدية وغير مثالية مما يزيد من فعاليتها.

مع ذلك، وعلى الرغم من التقدم الأخير في أداء المعايير، لا تزال الوكالات القوية منهكة وباهظة الثمن في الواقع العملي. تعتمد معظم الأنظمة على نماذج متعددة الأنماط الكبيرة (Large Multimodal Models) في كل خطوة من خطوات التفاعل، مما يؤدي إلى تبديد الموارد.

نحن نقدم حلاً مبتكرًا يعتمد على تخصيص مستوى الخطوة (Step-level Optimization) لتحسين الأداء الكلي. إذ أن المهام الطويلة المدى تتسم بتنوع كبير: حيث يمكن التعامل مع العديد من الخطوات الروتينية بشكل موثوق باستخدام سياسات أقل تكلفة، بينما تتركز الأخطاء في عدد قليل من اللحظات عالية المخاطر.

تشمل أنواع الأخطاء المتكررة في هذه الوكالات تعطل تقدم العمل، حيث تدخل الوكالة في حلقات مفرغة وتكرر إجراءات غير فعّالة، وأيضًا انحراف دلالي غير ملحوظ يؤدي إلى اتخاذ إجراءات محلية تبدو معقولة بينما تتجاوز الهدف الحقيقي للمستخدم.

لمعالجة هذه الإخفاقات، قمنا بتقديم نظام منسق قائم على الأحداث يمكنه تشغيل سياسة صغيرة افتراضيًا والتصعيد إلى نموذج أقوى عندما تكشف أنظمة المراقبة عن زيادة في المخاطر. يدمج هذا الإطار بين إشارتين تكميليتين:

1. **مراقب التعطل (Stuck Monitor)**: يكشف عن التقدم المعوق بناءً على تاريخ الأداء والتصرفات الأخيرة، ويحفز استعادة النشاط.
2. **مراقب المعلم (Milestone Monitor)**: يحدد نقاط فاصلة ذات دلالات فارقة حيث يكون التحقق المتناثر هو الأكثر إفادة لرصد الانحراف.

يساعد هذا التصميم على تحويل استدلال النموذج الأمامي المستمر إلى تخصيص موارد ذكي، مما يعزز التفاعل عبر مختلف المراحل.

بفضل طبيعته القابلة للتعديل، يمكن أن يُطبق هذا الإطار فوق وكالات الاستخدام الحاسوبي الحالية دون الحاجة إلى تغيير هيكل الوكالة الحالي أو إعادة تدريب النموذج الكبير.

في النهاية، نعيش ثورة في عالم التكنولوجيا، حيث تُعيد الأساليب المبتكرة تشكيل كيفية تفاعلنا مع أنظمتنا. هل أنتم مستعدون لاختبار هذه التقنيات الجديدة ومدى تأثيرها؟ شاركونا أفكاركم في التعليقات!