في عالم الذكاء الاصطناعي، يُعتبر فهم الأصوات غير اللفظية (Non-Verbal Vocalizations) مثل الضحك، والتنهدات، والسعال، من الأمور الأساسية لفهم المشاعر والنوايا. رغم ذلك، تركز معظم طرق تقييم جودة الكلام فقط على الجوانب الصوتية العامة، مما يترك فجوة كبيرة في تقييم هذه الأصوات في أنظمة تحويل النص إلى كلام. هنا تظهر أهمية النموذج الجديد NVMOS، الذي يسعى لتلبية هذه الحاجة.

قام الباحثون بتكوين مجموعة بيانات تسمى NV-MOS، والتي تتضمن مخرجات من عدة أنظمة تحويل النص إلى صوت غير لفظي، بالإضافة إلى عينات طبيعية من الأصوات غير اللفظية. تم جمع تقييمات من ثلاثة خبراء صوتيين على مقياس جودة إدراكية، للكشف عن الفجوات في التقييمات الحالية.

كما تم تحليل نماذج لغات متعددة الوسائط مثل Gemini، حيث أظهرت النتائج وجود تناقض واضح بين نتائجها وتقييمات الخبراء. يعني هذا أن النماذج متعددة الأغراض لا يمكن الاعتماد عليها بشكل موثوق في تقييم جودة الأصوات غير اللفظية، مما يؤكد على الحاجة لنموذج خاص مثل NVMOS.

تُظهر التجارب أن NVMOS، من خلال وحدة تركيز على الأحداث الصوتية غير اللفظية، وصل إلى مستوى توافق خبراء أو حتى أفضل مع تقييمات الجودة من البشر، مما يمثل خطوة هامة في مجال الذكاء الاصطناعي وتحسين التفاعلات البشرية.