في عصر [التكنولوجيا](/tag/التكنولوجيا) المتقدم، يعد [تقييم](/tag/تقييم) تقدم [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) ([LLMs](/tag/llms)) أمرًا بالغ الأهمية، ولكنه يواجه [تحديات](/tag/تحديات) كبيرة، خاصة عندما يتعلق الأمر بتحقق من [صحة](/tag/صحة) ردودها. غالبًا ما تقتصر [التقييمات](/tag/التقييمات) على مهام [رياضية](/tag/رياضية) أو برمجية أو أسئلة قصيرة، ولكن العديد من [التطبيقات](/tag/التطبيقات) الحقيقية تحتاج إلى [قيادة](/tag/قيادة) قوية في التعامل مع الوثائق المهنية، وتوليد [معلومات](/tag/معلومات) مركبة وتقارير شاملة وفق الاستفسارات.

هنا يأتي دور ProfBench، التي تعرض مجموعة مذهلة تحتوي على أكثر من 7000 زوج من [المعايير](/tag/المعايير) والردود، تم تقييمها بواسطة [خبراء](/tag/خبراء) يمتلكون [معرفة](/tag/معرفة) عميقة في مجالات مثل الفيزياء، الكيمياء، [المالية](/tag/المالية) والاستشارات. يعمل ProfBench على توفير [معايير تقييم](/tag/[معايير](/tag/معايير)-[تقييم](/tag/تقييم)) متينة وقابلة للدفع، حيث تم تصميمها لتقليل التحامل الذاتي وتقليل تكلفة [التقييم](/tag/التقييم) بمعدل بين 2-3 مرات، مما يجعل [العملية](/tag/العملية) أكثر عدلاً وسهولة للجميع.

أظهرت نتائجنا أن ProfBench تُمثل [تحديات](/tag/تحديات) كبيرة حتى لأحدث [نماذج](/tag/نماذج) اللغات، حيث حقق النموذج المتفوق [GPT-5](/tag/gpt-5)-high فقط 65.9% في [الأداء العام](/tag/[الأداء](/tag/الأداء)-العام). كما تم تحديد اختلافات ملحوظة في [الأداء](/tag/الأداء) بين [النماذج](/tag/النماذج) المغلقة والنماذج مفتوحة المصدر، مع تقديم [رؤى](/tag/رؤى) عن الدور الذي تلعبه العقلية الممتدة في التعامل مع المهام المهنية المعقدة.

إذا كنت مهتمًا باكتشاف المزيد، يمكنك زيارة: [مجموعات البيانات](https://huggingface.co/datasets/nvidia/ProfBench) و[الكود](https://github.com/NVlabs/ProfBench) و[قائمة المتصدرين](https://huggingface.co/spaces/nvidia/ProfBench). حيث تزيد هذه المصادر من فهمنا للطريقة التي يمكن بها [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في العالم الواقعي.