في عالم الذكاء الاصطناعي، تبرز نماذج اللغة الصوتية (Audio Language Models - ALMs) كأداة مبتكرة في مجال التعرف على المشاعر. لكن هل يمكن لهذه النماذج الاستفادة من الإشارات الصوتية بشكل فعال عندما تكون المعلومات الصوتية الأصلية متاحة بالفعل؟
أثناء الدراسة، تم إنشاء ستة رموز مفهومة للإشارات الصوتية من مجموعة ميزات eGeMAPS المعروفة، والتي تشمل مقاييس مثل الطاقة، الصوت، الديناميكيات، السطوع، الجودة الصوتية، والـ formants. تم إضافة هذه الرموز إلى العوامل النصية، بينما تم الحفاظ على مدخلات الصوت ثابتة.
عند اختبار هذه الرموز عبر مجموعتي بيانات FAU-Aibo و IEMOCAP، أظهرت النتائج أن الرموز الموزونة المعنية تحسن من معدلات الاستذكار المتوسط غير الموزون (UAR)، بينما الرموز غير المتناسقة أو الموشوشة تؤدي إلى تدهور الأداء. اللافت أن خرائط التوقعات لم تنهار تحت الضغط القوي لهذه الرموز، مما يشير إلى أن النماذج لا تزال مرتبطة بالصوت بشكل جزئي.
هكذا، تؤكد هذه الدراسة على إمكانية استخدام تدخلات الرموز كأداة عملية لاستكشاف كيفية تكامل الإشارات الصوتية في أنظمة الحوسبة العاطفية المعتمدة على نماذج اللغة الصوتية. إن فهمنا لهذه الديناميكيات يمكن أن يفتح آفاقًا جديدة لتحسين أداء هذه الأنظمة.
كيف تعزز نماذج اللغة الصوتية التعرف على مشاعر الكلام باستخدام الإشارات الصوتية!
توفر نماذج اللغة الصوتية (ALMs) إمكانية تحسين التعرف على مشاعر الكلام من خلال استخدام إشارات صوتية واضحة. يتناول مقالنا كيفية تحقيق ذلك وتأثيره على الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
