في عصر التكنولوجيا المتقدم، يعد تقييم تقدم نماذج اللغات الضخمة (LLMs) أمرًا بالغ الأهمية، ولكنه يواجه تحديات كبيرة، خاصة عندما يتعلق الأمر بتحقق من صحة ردودها. غالبًا ما تقتصر التقييمات على مهام رياضية أو برمجية أو أسئلة قصيرة، ولكن العديد من التطبيقات الحقيقية تحتاج إلى قيادة قوية في التعامل مع الوثائق المهنية، وتوليد معلومات مركبة وتقارير شاملة وفق الاستفسارات.

هنا يأتي دور ProfBench، التي تعرض مجموعة مذهلة تحتوي على أكثر من 7000 زوج من المعايير والردود، تم تقييمها بواسطة خبراء يمتلكون معرفة عميقة في مجالات مثل الفيزياء، الكيمياء، المالية والاستشارات. يعمل ProfBench على توفير معايير تقييم متينة وقابلة للدفع، حيث تم تصميمها لتقليل التحامل الذاتي وتقليل تكلفة التقييم بمعدل بين 2-3 مرات، مما يجعل العملية أكثر عدلاً وسهولة للجميع.

أظهرت نتائجنا أن ProfBench تُمثل تحديات كبيرة حتى لأحدث نماذج اللغات، حيث حقق النموذج المتفوق GPT-5-high فقط 65.9% في الأداء العام. كما تم تحديد اختلافات ملحوظة في الأداء بين النماذج المغلقة والنماذج مفتوحة المصدر، مع تقديم رؤى عن الدور الذي تلعبه العقلية الممتدة في التعامل مع المهام المهنية المعقدة.

إذا كنت مهتمًا باكتشاف المزيد، يمكنك زيارة: مجموعات البيانات والكود وقائمة المتصدرين. حيث تزيد هذه المصادر من فهمنا للطريقة التي يمكن بها تحسين أداء الذكاء الاصطناعي في العالم الواقعي.