تعتبر نماذج لغة الكلام (Speech Language Models) من التقنيات المتقدمة التي تساهم في تحسين التفاعل بين الإنسان والآلة. ومع ذلك، لقد واجهت القياسات التقليدية لتلك النماذج عائقًا بسبب تركيزها الكبير على اللغة الإنجليزية، مما أدى إلى صعوبة تقييم القدرات اللغوية المتعددة بشكل موثوق.

للتحايل على هذه المشكلة، تم اقتراح إطارين جديدين لبناء المعايير، الأول يقوم بتحويل المعايير القائمة على الأسئلة والأجوبة (SpokenQA) من لغة المصدر إلى اللغة المستهدفة، في حين يقوم الآخر بتحويل مجموعات بيانات التعرف على الصوت (ASR) إلى معايير لفهم الصوت باستخدام النصوص والبيانات الوصفية للمتحدث.

نتيجة لهذا الجهد، تم طرح ثلاث معايير جديدة للغة الكورية: KVoiceBench وKOpenAudioBench لتقييم SpokenQA، وKMMAU لفهم الصوت. تحتوي هذه المعايير على ما يقارب 12,345 عينة، مما يتيح للمطورين والباحثين اختبار وتقييم نماذجهم بشكل أفضل.

عند تقييم ثماني نماذج حديثة من SpeechLMs، أظهرت النتائج اختلافات ملحوظة في الأداء بين النماذج عبر الفجوة بين الإنجليزي والكوري، حيث كشفت التقييمات التنوع في فعالية النموذج في مختلف المجالات والمهام. كما أوضحت النتائج ضعفًا إضافيًا لا يمكن إدراكه من خلال التقييمات القائمة فقط على اللغة الإنجليزية، مما يدل على أهمية المعايير الجديدة في توفير رؤية كاملة حول الأداء.

إذا كنت من المهتمين بتطور اللغة الكورية في الذكاء الاصطناعي، هذا هو الوقت المناسب للغوص في عالم هذه المعايير الجديدة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.