في عالم متزايد التعقيد، تبرز الحاجة إلى تقييم أعمق لقدرات النماذج اللغوية الكبيرة (LLMs) في فهم اللغة والثقافة. لإغلاق الفجوة في التقييمات الحالية التي تركز غالباً على الفهم اللغوي السطحي، يأتي الاختبار الجديد CulturALL ليقدم معياراً شاملاً لتقدير الكفاءة اللغوية والثقافية للنماذج. تم تطوير CulturALL ضمن إطار تعاون بشري-ذكاء اصطناعي، حيث يساهم مُعقبو المعلومات الخبراء بضمان الصعوبة المناسبة والدقة.

يرتبط CulturALL بتحديات حقيقية حيث يتطلب من النماذج أن تقوم بالتفكير ضمن سيناريوهات غنية بالمعلومات. يحتوي الاختبار على 2,610 عينة موزعة على 14 لغة و51 منطقة، تغطي 16 موضوعاً متنوعاً، مما يوفر تغطية شاملة لمجموعة واسعة من المهام. أظهرت التجارب أن أفضل نموذج لغوي حقق دقة تصل إلى 44.48% فقط، مما يبرز أن هناك مجالًا كبيرًا للتحسين.

يهدف CulturALL إلى دفع النماذج اللغوية نحو المزيد من الفهم والقدرة على التعامل مع تعقيدات الواقع، مما يسهم في تحسين خبرات الذكاء الاصطناعي ليكون أكثر قربًا من الواقع الذي نعيشه.