في تطور جديد يهم عالم الذكاء الاصطناعي، تم إطلاق معيار أوردوMMLU، وهو معيار شامل للاختبارات متعددة المهام لفهم اللغة الأردية، التي يتحدث بها أكثر من 230 مليون شخص. هذا المعايير يأتي ليملأ فجوة كبيرة حيث كانت اللغات الأخرى محظوظة بمعايير تقييم متعددة المهام مثل MMLU، بينما ظلت الأردية دون ذلك.
يوفر معيار أوردوMMLU مجموعة ضخمة تضم 26,431 سؤال اختيار من متعدد (MCQ) موزعة على 26 موضوعًا و5 مجالات تعليمية، تم جمعها من بنوك الأسئلة المحلية وملفات الامتحانات العامة. يختلف أوردوMMLU عن الموارد المعتمدة على الترجمات، حيث يغطي مواضيع أكاديمية قياسية بالإضافة إلى محتوى خاص بالمنطقة والأردية.
وقد تم تقييم 30 نموذجًا لغويًا ضخمًا (Large Language Models) تحت توجيهات باللغة الإنجليزية والأردية، مما أدى إلى 60 تقييمًا بنمط عدم الوجود (zero-shot). تم تقييم أربعة نماذج مفتوحة المصدر تحت عدة إعدادات نادرة، حيث برز نموذج Gemini-3.5-Flash بتحقيق دقة تصل إلى 90.20% و90.34%. بينما لم يتمكن أي نموذج آخر من تجاوز مستوى 85%.
ومع ذلك، يظهر معيار أوردوMMLU أن المعرفة بالأردية لا تزال غير متساوية ضمن النماذج اللغوية الحالية، خصوصاً فيما يتعلق بالمحتوى المرتبط بالإنسانية، مقارنة بتخصصات العلوم والتكنولوجيا والهندسة والرياضيات (STEM). تشير النتائج إلى أن استخدام توجيه صغير للنماذج (few-shot prompting) لم يحقق سوى مكاسب متواضعة، مما يلقي الضوء على التحديات مستقبلاً في تعزيز الفهم اللغوي في هذا السياق.
هذا المعايير ليس فقط خطوة مهمة نحو تحسين أداء الذكاء الاصطناعي بل يعتبر أيضًا دعوة مفتوحة للباحثين والمطورين للاهتمام بالمحتوى اللغوي والتعليمي الخاص باللغات الأقل تمثيلاً.
ما رأيكم في هذا الإنجاز؟ هل تعتقدون أن هناك حاجة لمعايير مماثلة لغات أخرى؟ شاركونا آراءكم في التعليقات.
مرحباً بعالم جديد من الذكاء الاصطناعي: إطلاق معيار أوردوMMLU لفهم اللغة الأردية!
اكتشاف معيار أوردوMMLU الذي يتضمن أكثر من 26,000 سؤال اختيار من متعدد، يساهم في تعزيز فهم اللغة الأردية ضمن النماذج اللغوية. هذا المعيار يمثل خطوة مهمة لتطوير تكنولوجيا الذكاء الاصطناعي الخاص بإيجاد معايير لغوية متعددة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
