تُعد مشكلة التعرف على الكلام المتعثر (Dysarthric Speech) من التحديات الكبيرة التي تواجه أبحاث الذكاء الاصطناعي، وتحمل في طياتها تعقيدات ناتجة عن تفاوتات صوتية شديدة بسبب نقص الدقة في النطق. ولقد أظهرت الأبحاث السابقة أن استخدام التدريب الهجين للنماذج العصبية العميقة (Deep Neural Networks) ونماذج ماركوف المخفية (Hidden Markov Models) يُسهم في تحسين الاستجابة لهذا النوع من الكلام.

في إطار سعيها لتحقيق أداء أفضل، تقدم هذه الدراسة تحليلًا شاملًا لمجموعات متنوعة من الميزات الصوتية، حيث تم تخصيص كل مجموعة لنموذج صوتي معين، مما يسهل اختيار الميزات المناسبة لكل حالة. ومن بين تلك الميزات، برزت ميزات النبرة (Pitch Features) كعنصر رئيسي أسهم بشكل ملحوظ في تعزيز الأداء، خاصة في مهام التعرف على الجمل.

تمت دراسة قاعدة بيانات TORGO بدقة، وقد أظهرت النتائج إمكانية تعزيز أداء نموذج الشبكة العصبية المتقدمة المعروف باسم Factorized Time Delay Neural Network (F-TDNN) في التعرف على الكلام المتعثر. حققت الطرق المستخدمة في نموذج F-TDNN زيادة نسبتها 4.65% في التعرف على الكلمات المنعزلة، و4.63% في التعرف على الجمل، مقارنةً بالدراسات السابقة. ويُعزى هذا التحسن إلى اختيارنا المدروس لعدد الإطارات المتداخلة بين أجزاء التدريب، مما يساعد على التغلب على اختلافات الكلام الشائعة.