في عصر الذكاء الاصطناعي، تكتسب البارالينغويستيك (Paralinguistic) أهمية متزايدة، حيث تُعد ضرورية للتفاعل الطبيعي بين الإنسان والآلة. ومع ذلك، لا تزال التقييمات في نماذج الصوت واللغة الكبيرة (Large Audio-Language Models - LALMs) تعاني من نقص في التغطية الدقيقة والموضوعية. لمواجهة هذه التحديات، تم تقديم معيار SpeechParaling-Bench، الذي يُعتبر انطلاقة جديدة في عالم توليد الكلام الواعي بالبارالينغويستيك.

يعمل هذا المعيار على توسيع نطاق التغطية من أقل من 50 ميزة إلى أكثر من 100 ميزة دقيقة، مدعومًا بأكثر من 1,000 استفسار صوتي مترابط بين الإنجليزية والصينية. ويتضمن ثلاثة مهام تتزايد صعوبتها: التحكم الدقيق، والتنوع الداخلي للكلام، والتكيف القائم على السياق.

واحدة من الابتكارات الرئيسية لـ SpeechParaling-Bench هي تطوير خط أنابيب تقييم يعتمد على المقارنة الثنائية، حيث يتم تقييم الردود المرشحة مقابل قاعدة ثابتة بواسطة قاضٍ يعتمد على نماذج LALM. هذه المنهجية تسهم في تقليل نسبة التقييمات الذاتية وتقديم تقييمات أكثر استقرارًا ويمكن قياسها بدون الحاجة إلى التقديرات البشرية المكلفة.

تظهر التجارب الواسعة أن النماذج الحالية LALMs تعاني من قيود كبيرة. حتى النماذج الرائدة تواجه صعوبات في التحكم الشامل الثابت وتعديل الميزات البارالينغويستيك الديناميكي. وجد أن الإخفاق في تفسير الإشارات البارالينغويستيك بشكل صحيح يُسهم في 43.3% من الأخطاء في الحوارات السياقية.

تسلط هذه النتائج الضوء على الحاجة إلى نمذجة بارالينغويستيك أكثر قوة لتحقيق مساعدي صوتيين متوافقين مع احتياجات الإنسان. هل أنتم مستعدون للترحيب بتحول جديد في عالم الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!