في عالم الذكاء الاصطناعي، تتزايد استخدامات [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)) كمحاكيات بشرية، سواء لتقييم [أنظمة](/tag/أنظمة) [المحادثة](/tag/المحادثة) أو لتوليد [بيانات](/tag/بيانات) دقيقة لتدريبها. ومع ذلك، غالباً ما يؤدي استخدام [أوامر](/tag/أوامر) "مثل المستخدم" بشكل سطحي إلى نتائج غير واقعية ومبالغ فيها، مما يستدعي الحاجة إلى [تقييم](/tag/تقييم) مدروس لوكالات المستخدم.
تقدم لنا **MirrorBench**، وهو إطار معياري وقابل للتطوير، يقوم بتقييم [وكالات](/tag/وكالات) [المحادثة](/tag/المحادثة) وفقاً لقدرتها على إنتاج تعبيرات مستخدمين تشبه البشر [عبر](/tag/عبر) [سياقات](/tag/سياقات) [محادثة](/tag/محادثة) متنوعة، مع فصل ذلك عن [نجاح](/tag/نجاح) المهام اللاحقة.
تجمع **MirrorBench** بين ثلاث [مقاييس](/tag/مقاييس) لقياس [تنوع](/tag/تنوع) المفردات (**MATTR**، و **Yule's K**، و **HD-D**) وثلاثة [مقاييس](/tag/مقاييس) تعتمد على [تقييم](/tag/تقييم) [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) (**GTEval**، و **Pairwise Indistinguishability**، و **Rubric-and-Reason**). كما تسعى **MirrorBench** إلى توضيح النتائج من خلال استخدام ضوابط المقارنة بين البشر وبعضهم وبين الوكالات مع بعضها.
[عبر](/tag/عبر) أربعة [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) عامة، تمنح **MirrorBench** مقارنات مدروسة تكشف عن الفجوات النظامية بين [وكالات](/tag/وكالات) المستخدمين والمستخدمين البشر. توافر **MirrorBench** كمصدر مفتوح له أهمية كبيرة في مجال الذكاء الاصطناعي، إذ يمكن الوصول إليه من خلال الرابط [GitHub MirrorBench](https://github.com/SAP/mirrorbench)، مما يتيح للباحثين إمكانية إجراء [تجارب](/tag/تجارب) [تقييم](/tag/تقييم) [وكالات](/tag/وكالات) المستخدمين بسهولة.
MirrorBench: الإطار الثوري لتقييم وكالات المحادثة القريبة من البشر
تمثل MirrorBench إطاراً رائداً لتقييم وكالات المحادثة المدعومة بالذكاء الاصطناعي، حيث تقيس قدرتها على محاكاة البشر بدقة. وهذا يفتح أفقاً جديداً في تقييم أنظمة المحادثة وخلق بيانات دقيقة للتدريب.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
