في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتقدم، يعد [تقييم](/tag/تقييم) القدرات أمراً بالغ الأهمية لفهم مدى تقدم هذه [التقنية](/tag/التقنية). على الرغم من أن [التقييمات](/tag/التقييمات) التقليدية التي تعتمد على [المعايير](/tag/المعايير) ([Benchmarking](/tag/benchmarking)) تلعب دوراً مهماً، إلا أنها قد تكون مضللة. لماذا؟ لأنها تركز على المهام التي يمكن تحديدها بدقة، وتقييمها تلقائيًا، وسهلة [التحسين](/tag/التحسين).
لذا، اقترح الباحثون منهاج [تقييم](/tag/تقييم) [جديد](/tag/جديد) يعرف بتقييمات العالم المفتوح (Open-[World](/tag/world) Evaluations). هذه [التقييمات](/tag/التقييمات) تشمل مهام حقيقية ومعقدة يتم تقييمها من خلال [تحليل نوعي](/tag/[تحليل](/tag/تحليل)-نوعي) باستخدام [عينة](/tag/عينة) صغيرة بدلاً من الاعتماد على عمليات آلية على نطاق واسع.
وجاء في [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) أن مشروع (CRUX) - والذي يعني [البحث](/tag/البحث) التعاوني لتحديث [توقعات](/tag/توقعات) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) - يسعى إلى إجراء [تقييمات](/tag/تقييمات) عالم مفتوح بشكل منتظم. كأول تحدٍ، تم تكليف إحدى [وكالات الذكاء الاصطناعي](/tag/[وكالات](/tag/وكالات)-الذكاء-الاصطناعي) بتنمية ونشر تطبيق بسيط لنظام [iOS](/tag/ios) في متجر [آبل](/tag/آبل). وقد تم إنجاز المهمة مع [تدخل](/tag/تدخل) يدوي واحد فقط، مما يبرز قدرة [تقييمات العالم المفتوح](/tag/[تقييمات](/tag/تقييمات)-العالم-المفتوح) على تقديم إنذارات مبكرة عن القدرات التي قد تصبح شائعة في المستقبل.
هذا التطور أثار تساؤلات حول فعالية الأساليب التقليدية في [تقييم الذكاء الاصطناعي](/tag/[تقييم](/tag/تقييم)-الذكاء-الاصطناعي). هل يمكن أن تشير [تقييمات العالم المفتوح](/tag/[تقييمات](/tag/تقييمات)-العالم-المفتوح) إلى [تحول](/tag/تحول) جذري في كيفية [قياس](/tag/قياس) إمكانيات [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟
ختامًا، تقدم هذه [التقييمات](/tag/التقييمات) [رؤى](/tag/رؤى) جديدة تمزج بين [التحليل](/tag/التحليل) النوعي والتطبيقات العملية، مما يجعلها وسيلة واعدة لفهم طبيعة [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتزايد.
تقييمات العالم المفتوح: كيف نقيس قدرات الذكاء الاصطناعي الحديثة؟
تقدم تقييمات العالم المفتوح (Open-World Evaluations) طريقة مبتكرة لقياس تقدم الذكاء الاصطناعي عبر مهام حقيقية ومعقدة. من خلال مشروع CRUX، يتم تقييم القدرات الجديدة للذكاء الاصطناعي في سياقات واقعية بدلاً من الوسائل التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
