تعتبر تحديات التعرف على الكلام من الأمور الهامة التي تؤثر على الأشخاص الذين يعانون من صعوبات في النطق، مثل dysarthria، حيث تتسبب ضعف الدقة في النطق في تنوعات صوتية واضحة تؤثر على جودة التعرف. ولعلاج هذه المسألة، قدمت أبحاث سابقة تحسينات عبر استخدام التدريب التمييزي الهجين بين الشبكات العصبية العميقة (DNN) ونموذج ماركوف المخفي (HMM).

في هذه الدراسة، تم إجراء تحليل شامل لمجموعة من الميزات الصوتية المصممة خصيصاً لتناسب نماذج صوتية مختلفة، مما يسهل اختيار الميزات المناسبة لكل نموذج. وقد ثبت أن دمج ميزات النغمة (Pitch) قد حسّن الأداء في التعرف، وخصوصاً في المهام المتعلقة بالتعرف على الجمل الكلامية لمستخدمي dysarthric.

من خلال تحليل منهجي للبيانات من قاعدة بيانات TORGO، أظهرنا إمكانية تعزيز أداء النموذج المتقدم Factorized Time Delay Neural Network (F-TDNN) في التعرف على الكلام dysarthric. وبفضل الطرق التي قمنا بتطبيقها على النموذج، حققنا تحسناً نسبته 4.65% في التعرف على الكلمات المنفصلة، و4.63% في التعرف على الجمل، مقارنةً بالأبحاث السابقة. هذا التحسن يعوض بشكل فعّال عن التغيرات في الكلام التي يمكن أن تنشأ نتيجة لاختيار عدد الإطارات المتداخلة بين أجزاء التدريب المتعاقبة.