في عالم الذكاء الاصطناعي، تتزايد استخدامات [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)) كمحاكيات بشرية، سواء لتقييم [أنظمة](/tag/أنظمة) [المحادثة](/tag/المحادثة) أو لتوليد [بيانات](/tag/بيانات) دقيقة لتدريبها. ومع ذلك، غالباً ما يؤدي استخدام [أوامر](/tag/أوامر) "مثل المستخدم" بشكل سطحي إلى نتائج غير واقعية ومبالغ فيها، مما يستدعي الحاجة إلى [تقييم](/tag/تقييم) مدروس لوكالات المستخدم.

تقدم لنا **MirrorBench**، وهو إطار معياري وقابل للتطوير، يقوم بتقييم [وكالات](/tag/وكالات) [المحادثة](/tag/المحادثة) وفقاً لقدرتها على إنتاج تعبيرات مستخدمين تشبه البشر [عبر](/tag/عبر) [سياقات](/tag/سياقات) [محادثة](/tag/محادثة) متنوعة، مع فصل ذلك عن [نجاح](/tag/نجاح) المهام اللاحقة.

تجمع **MirrorBench** بين ثلاث [مقاييس](/tag/مقاييس) لقياس [تنوع](/tag/تنوع) المفردات (**MATTR**، و **Yule's K**، و **HD-D**) وثلاثة [مقاييس](/tag/مقاييس) تعتمد على [تقييم](/tag/تقييم) [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) (**GTEval**، و **Pairwise Indistinguishability**، و **Rubric-and-Reason**). كما تسعى **MirrorBench** إلى توضيح النتائج من خلال استخدام ضوابط المقارنة بين البشر وبعضهم وبين الوكالات مع بعضها.

[عبر](/tag/عبر) أربعة [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) عامة، تمنح **MirrorBench** مقارنات مدروسة تكشف عن الفجوات النظامية بين [وكالات](/tag/وكالات) المستخدمين والمستخدمين البشر. توافر **MirrorBench** كمصدر مفتوح له أهمية كبيرة في مجال الذكاء الاصطناعي، إذ يمكن الوصول إليه من خلال الرابط [GitHub MirrorBench](https://github.com/SAP/mirrorbench)، مما يتيح للباحثين إمكانية إجراء [تجارب](/tag/تجارب) [تقييم](/tag/تقييم) [وكالات](/tag/وكالات) المستخدمين بسهولة.