تعتبر تحديات التعرف على الكلام من الأمور الهامة التي تؤثر على الأشخاص الذين يعانون من صعوبات في النطق، مثل dysarthria، حيث تتسبب ضعف الدقة في النطق في تنوعات صوتية واضحة تؤثر على جودة التعرف. ولعلاج هذه المسألة، قدمت أبحاث سابقة تحسينات عبر استخدام التدريب التمييزي الهجين بين الشبكات العصبية العميقة (DNN) ونموذج ماركوف المخفي (HMM).
في هذه الدراسة، تم إجراء تحليل شامل لمجموعة من الميزات الصوتية المصممة خصيصاً لتناسب نماذج صوتية مختلفة، مما يسهل اختيار الميزات المناسبة لكل نموذج. وقد ثبت أن دمج ميزات النغمة (Pitch) قد حسّن الأداء في التعرف، وخصوصاً في المهام المتعلقة بالتعرف على الجمل الكلامية لمستخدمي dysarthric.
من خلال تحليل منهجي للبيانات من قاعدة بيانات TORGO، أظهرنا إمكانية تعزيز أداء النموذج المتقدم Factorized Time Delay Neural Network (F-TDNN) في التعرف على الكلام dysarthric. وبفضل الطرق التي قمنا بتطبيقها على النموذج، حققنا تحسناً نسبته 4.65% في التعرف على الكلمات المنفصلة، و4.63% في التعرف على الجمل، مقارنةً بالأبحاث السابقة. هذا التحسن يعوض بشكل فعّال عن التغيرات في الكلام التي يمكن أن تنشأ نتيجة لاختيار عدد الإطارات المتداخلة بين أجزاء التدريب المتعاقبة.
إصلاح تحديات التعرف على الكلام: دراسة متعمقة لاستراتيجيات التحسين للأطفال ذوي الاحتياجات الخاصة
تتناول هذه الدراسة التحديات المرتبطة بالتعرف على الكلام dysarthric وتحليل استراتيجيات التحسين الفعّالة لذلك. النتائج تبين تحسناً ملحوظاً في أداء نماذج التعرف على الكلمات والجمل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
