في ظل التطورات السريعة في مجال الذكاء الاصطناعي، تقدم XpertBench مقياسًا جديدًا يهدف إلى قياس قدرة نماذج اللغات الضخمة (LLMs) على مواجهة تحديات خفية، تتطلب إدراكًا معقدًا وفهمًا عميقًا. على الرغم من تزايد استخدام هذه النماذج، فقد عانت من أداء مستقر في اختبارات تقليدية. تكمن المشكلة في عدم قدرة الأطر الحالية على تقييم قدراتها في المهام المفتوحة المركبة التي تتطلب تفكيرًا على مستوى الخبراء.

ولملء هذه الفجوة، تم تصميم XpertBench كمعيار تقييم موثوق، حيث يتكون من 1,346 مهمة مصنفة بعناية عبر 80 فئة تشمل المالية، والرعاية الصحية، والخدمات القانونية، والتعليم، والبحث الثنائي (STEM والإنسانيات). تأتي هذه المهام من أكثر من 1000 مشاركة من خبراء ميدانيين - بما في ذلك باحثين من مؤسسات مرموقة وممارسين ذوي خبرة عميقة في مجالاتهم - مما يعزز من صحة النتائج التي تخرج بها.

تستخدم كل مهمة قواعد تقييم تفصيلية تحتوي على 15-40 نقطة تقييم لتقيس الجوانب الاحترافية. وبالإضافة إلى ذلك، تقدم XpertBench نموذج التقييم الجديد ShotJudge، الذي يستعين بنماذج لغوية متخصصة محكومة بالشهادات من خبراء لتقليل التحيزات الذاتية.

أظهرت التقييمات التجريبية للنماذج المتقدمة أن هناك سقفًا ملحوظًا للأداء، حيث لم تحقق النماذج الرائدة إلا معدل نجاح يصل إلى حوالي 66% ومتوسط نقاط يبلغ حوالي 55%. كما تظهر النماذج انحرافًا خاصًا بالمجال، مما يكشف عن نقاط قوة غير متداخلة في التفكير الكمي مقابل التركيب اللغوي.

تشير النتائج إلى وجود "فجوة خبراء" كبيرة في الأنظمة الحالية للذكاء الاصطناعي، مما يجعل من XpertBench أداة حاسمة في الانتقال من المساعدين العامين إلى المتعاونين المحترفين المتخصصين.