في عالم الذكاء الاصطناعي، تتزايد استخدامات نماذج اللغات الضخمة (Large Language Models - LLMs) كمحاكيات بشرية، سواء لتقييم أنظمة المحادثة أو لتوليد بيانات دقيقة لتدريبها. ومع ذلك، غالباً ما يؤدي استخدام أوامر "مثل المستخدم" بشكل سطحي إلى نتائج غير واقعية ومبالغ فيها، مما يستدعي الحاجة إلى تقييم مدروس لوكالات المستخدم.

تقدم لنا **MirrorBench**، وهو إطار معياري وقابل للتطوير، يقوم بتقييم وكالات المحادثة وفقاً لقدرتها على إنتاج تعبيرات مستخدمين تشبه البشر عبر سياقات محادثة متنوعة، مع فصل ذلك عن نجاح المهام اللاحقة.

تجمع **MirrorBench** بين ثلاث مقاييس لقياس تنوع المفردات (**MATTR**، و **Yule's K**، و **HD-D**) وثلاثة مقاييس تعتمد على تقييم نماذج اللغة (**GTEval**، و **Pairwise Indistinguishability**، و **Rubric-and-Reason**). كما تسعى **MirrorBench** إلى توضيح النتائج من خلال استخدام ضوابط المقارنة بين البشر وبعضهم وبين الوكالات مع بعضها.

عبر أربعة مجموعات بيانات عامة، تمنح **MirrorBench** مقارنات مدروسة تكشف عن الفجوات النظامية بين وكالات المستخدمين والمستخدمين البشر. توافر **MirrorBench** كمصدر مفتوح له أهمية كبيرة في مجال الذكاء الاصطناعي، إذ يمكن الوصول إليه من خلال الرابط GitHub MirrorBench، مما يتيح للباحثين إمكانية إجراء تجارب تقييم وكالات المستخدمين بسهولة.