في عصر [التكنولوجيا](/tag/التكنولوجيا) المتقدم، يعد [تقييم](/tag/تقييم) تقدم [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) ([LLMs](/tag/llms)) أمرًا بالغ الأهمية، ولكنه يواجه [تحديات](/tag/تحديات) كبيرة، خاصة عندما يتعلق الأمر بتحقق من [صحة](/tag/صحة) ردودها. غالبًا ما تقتصر [التقييمات](/tag/التقييمات) على مهام [رياضية](/tag/رياضية) أو برمجية أو أسئلة قصيرة، ولكن العديد من [التطبيقات](/tag/التطبيقات) الحقيقية تحتاج إلى [قيادة](/tag/قيادة) قوية في التعامل مع الوثائق المهنية، وتوليد [معلومات](/tag/معلومات) مركبة وتقارير شاملة وفق الاستفسارات.
هنا يأتي دور ProfBench، التي تعرض مجموعة مذهلة تحتوي على أكثر من 7000 زوج من [المعايير](/tag/المعايير) والردود، تم تقييمها بواسطة [خبراء](/tag/خبراء) يمتلكون [معرفة](/tag/معرفة) عميقة في مجالات مثل الفيزياء، الكيمياء، [المالية](/tag/المالية) والاستشارات. يعمل ProfBench على توفير [معايير تقييم](/tag/[معايير](/tag/معايير)-[تقييم](/tag/تقييم)) متينة وقابلة للدفع، حيث تم تصميمها لتقليل التحامل الذاتي وتقليل تكلفة [التقييم](/tag/التقييم) بمعدل بين 2-3 مرات، مما يجعل [العملية](/tag/العملية) أكثر عدلاً وسهولة للجميع.
أظهرت نتائجنا أن ProfBench تُمثل [تحديات](/tag/تحديات) كبيرة حتى لأحدث [نماذج](/tag/نماذج) اللغات، حيث حقق النموذج المتفوق [GPT-5](/tag/gpt-5)-high فقط 65.9% في [الأداء العام](/tag/[الأداء](/tag/الأداء)-العام). كما تم تحديد اختلافات ملحوظة في [الأداء](/tag/الأداء) بين [النماذج](/tag/النماذج) المغلقة والنماذج مفتوحة المصدر، مع تقديم [رؤى](/tag/رؤى) عن الدور الذي تلعبه العقلية الممتدة في التعامل مع المهام المهنية المعقدة.
إذا كنت مهتمًا باكتشاف المزيد، يمكنك زيارة: [مجموعات البيانات](https://huggingface.co/datasets/nvidia/ProfBench) و[الكود](https://github.com/NVlabs/ProfBench) و[قائمة المتصدرين](https://huggingface.co/spaces/nvidia/ProfBench). حيث تزيد هذه المصادر من فهمنا للطريقة التي يمكن بها [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في العالم الواقعي.
ثورة في تقييم الذكاء الاصطناعي: ProfBench وتحديات جديدة للذكاء الاصطناعي الخارق
تعرف على ProfBench، المبادرة الجديدة التي تقدم أكثر من 7000 معيار تقييم لفهم الذكاء الاصطناعي في المجالات المهنية. كما تكشف عن أداء نماذج اللغات الضخمة (LLMs) في التعامل مع الوثائق المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
