في عالم الذكاء الاصطناعي، تُعتبر نماذج اللغة المنطوقة (Spoken Language Models) من الأدوات الأساسية التي تتيح لنا التفاعل مع التكنولوجيا بشكل أكثر طبيعية. وقد تم تدريب هذه النماذج على كميات ضخمة من البيانات الصوتية، مما يساعدها على توليد محتوى مناسب أثناء المحادثات، مع الحفاظ على خصائص مثل صوت المتحدث والمشاعر. ومع ذلك، فإن هناك تحديًا مهمًا في كيفية تقييم هذه النماذج.

في الأدبيات السابقة، تم استخدام مقياس معروف باسم "الترتيب العالمي للتعقيد" (Global Token Perplexity) لتقييم أداء هذه النماذج، لكن هذا الأسلوب يعتمد في الأساس على تحليل النصوص، مما يتجاهل الاختلافات الجوهرية بين اللغتين المنطوقة والمكتوبة. وهذا قد يؤدي إلى تقدير أقل للخصائص الفريدة للغة المنطوقة.

تقدم الدراسة الجديدة مجموعة متنوعة من طرق التقييم المعتمدة على الاحتمالات (Likelihood) والجوانب التوليدية، والتي تعكس الجودة الحقيقية للتوليد اللغوي. أظهرت النتائج أن هذه المقاييس الجديدة ترتبط بشكل أقوى مع تقييمات البشر للجودة، حسب درجات الرأي الوسطى (Mean Opinion Scores - MOS). وعند تقييم النماذج تحت هذه المعايير الجديدة، تم إعادة تشكيل landscape الأداء بشكل كبير، مما أظهر تقليص الفجوة بين النماذج ذات الأداء الأفضل والأداء البشري.

تشير هذه النتائج إلى أن استخدام مقاييس تقييم دقيقة هو أمر حيوي لتحسين تقديراتنا بشأن التقدم الذي تحرزه نماذج اللغة المنطوقة. فهل تعتقد أن هذا التطور سيؤثر على مستقبل الذكاء الاصطناعي في التواصل؟ شاركونا آراءكم.