تُعد مشكلة التعرف على الكلام المتعثر (Dysarthric Speech) من التحديات الكبيرة التي تواجه أبحاث الذكاء الاصطناعي، وتحمل في طياتها تعقيدات ناتجة عن تفاوتات صوتية شديدة بسبب نقص الدقة في النطق. ولقد أظهرت الأبحاث السابقة أن استخدام التدريب الهجين للنماذج العصبية العميقة (Deep Neural Networks) ونماذج ماركوف المخفية (Hidden Markov Models) يُسهم في تحسين الاستجابة لهذا النوع من الكلام.
في إطار سعيها لتحقيق أداء أفضل، تقدم هذه الدراسة تحليلًا شاملًا لمجموعات متنوعة من الميزات الصوتية، حيث تم تخصيص كل مجموعة لنموذج صوتي معين، مما يسهل اختيار الميزات المناسبة لكل حالة. ومن بين تلك الميزات، برزت ميزات النبرة (Pitch Features) كعنصر رئيسي أسهم بشكل ملحوظ في تعزيز الأداء، خاصة في مهام التعرف على الجمل.
تمت دراسة قاعدة بيانات TORGO بدقة، وقد أظهرت النتائج إمكانية تعزيز أداء نموذج الشبكة العصبية المتقدمة المعروف باسم Factorized Time Delay Neural Network (F-TDNN) في التعرف على الكلام المتعثر. حققت الطرق المستخدمة في نموذج F-TDNN زيادة نسبتها 4.65% في التعرف على الكلمات المنعزلة، و4.63% في التعرف على الجمل، مقارنةً بالدراسات السابقة. ويُعزى هذا التحسن إلى اختيارنا المدروس لعدد الإطارات المتداخلة بين أجزاء التدريب، مما يساعد على التغلب على اختلافات الكلام الشائعة.
ثورة في التعرف على الكلام المتعثر: دراسة شاملة تعتمد على الميزات الطيفية ونماذج الصوت
تفتح دراسة جديدة آفاقاً مبهرة في مجال التعرف على الكلام المتعثر، مع تحسينات ملحوظة في الأداء باستخدام نماذج صوتية متطورة. كما تُظهر النتائج إمكانية تجاوز التحديات المرتبطة بالاختلافات الصوتية الناجمة عن قلة الدقة في النطق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
