في ظل الاستخدام المتزايد للنماذج اللغوية الضخمة (Large Language Models) في مجالات تتسم بأهمية قصوى، أصبحت الحاجة ملحة لتقييم موثوق للسلامة والامتثال. لكن التقييمات التقليدية الثابتة لم تعد كافية لمواجهة المخاطر الديناميكية التي يمثلها الذكاء الاصطناعي والتشريعات المتطورة، مما يشكّل فجوة حرجة في السلامة.في هذا السياق، تم تقديم مفهوم جديد لتقييم السلامة يسمي AgenticEval، الذي يعيد صياغة عملية التقييم لتكون عملية مستمرة وقابلة للتطور الذاتي بدلاً من كونها مراجعة لمرة واحدة. يعتمد AgenticEval على إطار عمل متعدد الوكلاء، حيث يقوم بتغذية النظام بالمستندات السياسية غير المنظمة ليولد ويطور باستمرار معيار سلامة شامل.

يعتمد AgenticEval على خط أنابيب تآزري من الوكلاء المتخصصين ويقوم بإدماج حلقة تقييم ذاتية التطور، حيث يتعلم النظام من نتائج التقييم لصياغة حالات اختبار أكثر تعقيدًا وتركزًا. أظهرت التجارب فعالية AgenticEval، إذ سجلت انخفاضًا ثابتًا في سلامة النماذج مع تزايد صعوبة التقييمات. على سبيل المثال، تنخفض معدل سلامة نموذج GPT-5 بموجب قانون الذكاء الاصطناعي في الاتحاد الأوروبي من 72.50% إلى 36.36% عبر عدة دورات تقييم.

تسلط هذه النتائج الضوء على محدوديات التقييمات الثابتة وتظهر القدرة الفريدة لإطارنا على اكتشاف نقاط الضعف العميقة التي قد تفوتها الأساليب التقليدية، مما يؤكد الحاجة الملحة لإنشاء نظم تقييم ديناميكية لضمان نشر الذكاء الاصطناعي المتقدم بشكل آمن ومسؤول.