في عالم يتسارع فيه ظهور وكالات الذكاء الاصطناعي المستقلة بشكل متزايد، برزت الحاجة إلى أدوات تقييم موثوقة وقابلة للتطبيق. تُقدّم كلو-إيفال (Claw-Eval) كحل ثوري يهدف إلى تحسين جوانب التقييم الحالية للوكلاء المستقلين.
تعتبر هذه الأداة تجربة شاملة تستند إلى 300 مهمة تم التحقق منها من قبل البشر، موزعة على تسع فئات مختلفة تشمل تنظيم الخدمات العامة، الإدراك المتعدد الوسائط والتفاعل، و الحوار المهني متعدد الجولات. حيث تركز كلو-إيفال على معالجة الفجوات في التقييم التقليدي الذي يفتقر إلى الشفافية والأمان.
تعتمد كلو-إيفال على تسجيل ثلاث قنوات مستقلة من الأدلة لكل عملية، تتضمن تتبع التنفيذ، سجلات المراجعة، ولقطات للبيئة، مما يتيح الحصول على 2159 عنصر تقييم مفصل. يهدف بروتوكول التقييم إلى قياس الأداء، والأمان، والمتانة، مما يساعد على التمييز بين القدرات الحقيقية والنتائج الناتجة عن الحظ.
أظهرت التجارب على 14 نموذج متقدم نتائج مثيرة للاهتمام، أبرزها أن التقييم الغامض كان غير موثوق بشكل نظامي، حيث تم تفويت 44% من انتهاكات الأمان و13% من حالات الفشل في المتانة. كما أثبتت النتائج أن القدرة لا تعني بالضرورة الاتساق، حيث تظل قيمة Pass@3 مستقرة عند إدخال أخطاء، بينما تتراجع قيمة Pass^3 بمقدار يصل إلى 24 نقطة مئوية.
تظهر كلو-إيفال أن القدرة على التعامل مع مهام متعددة تظل عنصرًا أساسيًا لمصداقية الوكلاء، مما يبرز أهمية توفير تقييم شامل ومتعدد الأبعاد.
كلو-إيفال: تقييم موثوق لوكلاء الذكاء الاصطناعي المستقلين
تم تقديم كلو-إيفال كأداة جديدة لتقييم وكالات الذكاء الاصطناعي، تتضمن أكثر من 300 مهمة تم التحقق منها بواسطة البشر. الهدف هو تحسين دقة وموثوقية تقييم الأداء والسلامة والتنوع لدى الوكلاء المستقلين.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
