تُعتبر تقييم جودة الكلام المضطرب (Dysarthric Speech Quality Assessment - DSQA) عنصرًا حيويًا في تشخيص الأمراض المختلفة وتحقيق الدمج في تكنولوجيا الكلام. في السنوات الأخيرة، بات من الواضح أن التقييمات الذاتية غالبًا ما تكون مكلفة وصعبة التوسع، مما يحول دون تحقيق نتائج دقيقة وموثوقة في هذا المجال.
للتغلب على هذه التحديات، اقترح الباحثون إطار عمل مكون من ثلاث مراحل يستفيد من البيانات غير المُعلمة للكلام المضطرب والبيانات الكبيرة من الكلام العادي. تبدأ العملية من خلال نموذج المعلم الذي يقوم بتوليد تسميات زائفة (pseudo-labels) للعينات غير المُعلمة. بعد ذلك، يتم استخدام استراتيجية تعلم تبايني واعية بالتسميات لتحضير النموذج من خلال التعرض لمتحدثين مختلفين وظروف صوتية متنوعة.
ثم يتم تحسين النموذج المدرب مسبقًا لمهمة تقييم جودة الكلام المضطرب. تجارب أجريت على خمسة مجموعات بيانات غير مُشاهدة تغطي مجموعة متنوعة من الأسباب واللغات، أظهرت قوة هذا المنهج الجديد. حيث تفوقت النسخة الأساسية المبنية على Whisper بشكل ملحوظ على طُرق تقييم جودة الكلام المضطرب الرائجة مثل SpICE، وحققت الإطار الكامل متوسطًا لـ SRCC يبلغ 0.761 عبر مجموعات البيانات الاختبارية غير المُشاهدة.
إن هذه الإنجازات تعزز من قدرة تقنيات الذكاء الاصطناعي (AI) على تحسين الرعاية الصحية وزيادة شمولية تقنيات التواصل لكل الأفراد. هل تود معرفة المزيد حول هذا الابتكار؟ شاركونا آرائكم في التعليقات!
ثورة جديدة في تقييم جودة الكلام: تعزيز البيانات لتقدير مستوى شدة الكلام المضطرب
تقدم هذه الدراسة إطارًا مبتكرًا لتحسين تقييم جودة الكلام المضطرب (DSQA) باستخدام تقنيات تعزيز البيانات. يساعد هذا الأسلوب في تجاوز نقص البيانات ويحقق نتائج مبهرة في تقنيات التشخيص السريري.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
