تُعتبر المقاييس (Benchmarks) أدوات حيوية في تقييم وتقدم نماذج اللغات الضخمة (LLMs) والنماذج متعددة اللغات (MLLMs)، حيث تقدم مقاييس واضحة وموحدة للأداء. ولكن، تكمن المشكلة في أن بناء هذه المقاييس يتطلب جهودًا كبيرة ويتسم بالصعوبة في إعادة استخدامها، مما يثير المخاوف بشأن الاستدامة والتوسع.

على الرغم من أهمية المقاييس، فإنها غالبًا ما تصل إلى مرحلة التشبع في الأداء بسرعة بعد إصدارها، مما يؤدي إلى نقص في القدرة على التفريق بين النماذج الحديثة. لمواجهة هذه التحديات، تم تقديم نظام Benchmark Agent، وهو نظام مستقل بالكامل مصمم لبناء المقاييس.

يعمل هذا الإطار على تنسيق خط أنابيب كامل لبناء المقاييس، بدءًا من تحليل طلبات المستخدم وتصميم المهام الفرعية وصولاً إلى تدقيق البيانات وإدارة الجودة.

قمنا بتطبيق Benchmark Agent لإنشاء 15 مقياسًا تمثيليًا، تشمل سيناريوهات تقييم متنوعة مثل فهم النص، والفهم المتعدد الوسائط، والتفكير في مجالات محددة.

لقد أظهرت التجارب الشاملة، بما في ذلك التقييم البشري، وتقدير النماذج اللغوية كحكم، وفحوصات التناسق، أن Benchmark Agent قادر على إنتاج عينات مقاييس عالية الجودة مع الحد الأدنى من المشاركة البشرية.

من الأهم أنه من خلال التقييم المستمر، لاحظنا نتائج مثيرة، بما في ذلك أن النماذج الحالية تواجه صعوبة في بعض المهام المتعلقة بدوافع محددة. نعتقد أن المقاييس التي تتطور بسرعة يمكن أن تسهم بشكل كبير في المجتمع البحثي. سيكون العرض التوضيحي والشفرات متاحة للجمهور على صفحة العرض ومستودع الشفرات.