تُعتبر عملية تقييم وكلاء الذكاء الاصطناعي المدعومين بنماذج اللغات الضخمة (Large Language Models) من الأمور المعقدة، إذ تعتمد السلوكيات الاجتماعية على تفاعل الوكيل مع البيئة وليس فقط على المخرجات المعزولة. في هذا السياق، برز نموذج جديد يُسمى "Online Agent-as-a-Judge"، الذي يقدم إطارًا مبتكرًا لتقييم سلوكيات وكلاء الذكاء الاصطناعي من خلال إنشاء مواقف تفاعلية ذات مغزى.

تستند فكرة هذا النموذج إلى استخدام وكيل تقييم داخل العالم الافتراضي، يقوم بالتفاعل مع الوكيل المستهدف من خلال الحوار والإجراءات المتاحة في البيئة. هذا الوكيل يسعى بشكل نشط لاستنباط مواقف وبالتالي يوفر سياقًا للتقييم أكثر دقة. وبهذه الطريقة، يمكن للباحثين تقييم ردود الأفعال الفورية والسلوكيات اللاحقة للوكيل المستهدف، مما يعزز فهمنا لكيفية تصرفهم في مواقف مختلفة.

من خلال بيئات محاكاة الحياة التي تحتوي على 32 معيارًا اجتماعيًا مصممًا بعناية، يحقق نموذج "Online Agent-as-a-Judge" تغطية محسّنة للمعايير واتفاقًا أفضل مع التقييمات البشرية. هذه النتائج تضيف موثوقية أكبر إلى التقييمات السلوكية، وتؤكد على أهمية السياق الاجتماعي في تقييم سلوكيات وكلاء الذكاء الاصطناعي.

من خلال هذا الابتكار، يتضح أن تقييم سلوكيات وكلاء الذكاء الاصطناعي لا يجب أن يقتصر على ردود أفعالهم الفورية، بل يجب أن يشمل أيضًا كيفية تعايشهم مع الظروف الاجتماعية المعقدة. فهل نحن على أعتاب ثورة في تقييم التكنولوجيا الاجتماعية؟