في عالم الذكاء الاصطناعي، تتزايد الحاجة إلى أدوات تقييم دقيقة وفعالة للوكلاء التفاعليين. قدمت الأبحاث الحديثة نظام 'كلو فورج' (ClawForge)، الذي يعد ثورة في الطرق الحالية لاختبار الأداء. تعتمد معظم اختبارات الأداء التقليدية على مشاهد واضحة ومباشرة غير قادرة على محاكاة الظروف الواقعية بشكل كاف.

تأتي المشكلة الكبرى في أن المهام اليدوية المختارة بعناية تتطلب الكثير من الوقت والموارد للتعديل والتوسع في المصادقة على الوكلاء. بينما تفشل طرق التقييم الثابتة في الكشف عن الأعطاب التي قد تحدث فقط عندما تعمل الوكلاء على بيانات مستمرة.

'System Framework ClawForge' مصممة لمواجهة هذه التحديات، حيث يتم إعداد قوالب سيناريو، والنماذج المبدئية، وحالات العمل المعتمدة، جنبًا إلى جنب مع مسارات مرجعية. هذا الأسلوب يتيح تقييم الأداء خطوة بخطوة بدلاً من الاعتماد على مطابقة المسار الدقيق، مما يجعل من الممكن تقييم النتيجة النهائية والآثار الجانبية القابلة للملاحظة.

تجربتنا باستخدام كلو فورج تظهر نتائج مثيرة، حيث أظهرت أفضل النماذج دقة تصل فقط إلى 45.3%. هذه النتائج تعكس أن استبدال الحالة الخاطئة لا يزال أقل من 17% لكل النماذج المعنية.

تمتد التحليلات إلى أن العديد من الفشل ينجم عن قضايا قريبة من النجاح بدلاً من الانكسار المبكر، مما يشير إلى أن النماذج تستعرض أنماط فشل مختلفة عندما تواجه تعارضات في الحالات. إن 'كلو فورج' تعد بإعادة تعريف كيفية اختبار أداء الوكلاء في ظل بيئات عمل متغيرة.