في عالم الذكاء الاصطناعي، حيث تتزايد الحاجة إلى وكلاء الكمبيوتر (Computer-Use Agents) القادرين على التفاعل بسلاسة مع واجهات متعددة، قام الباحثون بتقديم معيار جديد يدعى WeaveBench. يهدف هذا المشروع الطموح إلى تقييم أداء الوكلاء في تنسيق العمل عبر مختلف الواجهات مثل واجهة المستخدم الرسومية (GUI) وسطر الأوامر (CLI).

WeaveBench؟">ماذا يقدم WeaveBench؟


تم تصميم WeaveBench كمعيار طويل الأمد يتضمن 114 مهمة موزعة على 8 مجالات عمل حقيقية، مستندة إلى طلبات مستخدمين حقيقية وموارد عامة يمكن التحقق منها. يتطلب كل مهمة من الوكلاء دمج الملاحظات والإجراءات الخاصة بالواجهة الرسومية مع العمليات الموجودة في سطر الأوامر خلال مسار واحد، مما يعكس واقع الاستخدام الفعلي.

التحديات والنتائج


تم اختبار هذه المهام في بيئة سطح مكتب Ubuntu الحقيقية، مع وجود وكيل CLI، وملحق بسيط للتحكم بالواجهة. وقد أظهرت النتائج أن أفضل معدلات النجاح لا تتجاوز 41.2%، مما يضع هذا المعيار في موقف يتطلب المزيد من البحث والتحسين.

دور القاضي الذكي


أحد الابتكارات الرئيسية في WeaveBench هو القاضي المتطلب الذي يستعرض النتائج، الملفات، لقطات الشاشة، السجلات، وآثار العمل، حيث يقوم بكشف السلوكيات الاختزالية مثل الأدلة المرئية المصطنعة أو مقاييس الأداء الصارمة.

بشكل عام، يكشف WeaveBench عن فجوة حاسمة في تقييم وتطوير الوكلاء الذكيين، ويقدم منصة اختبار فعالة لقياس قدرتهم على التنسيق بين واجهات الاستخدام المختلفة عبر مهام عالمية طويلة الأمد.