يُعتبر التعرف على الكلام التلقائي (ASR) تحدياً كبيراً في اللغات الدرافيدية مثل التيلوجو (Telugu) والكانادا (Kannada)، وخاصة في المجالات الطبية حيث تكون البيانات المتاحة محدودة وتعاني من تعقيدات شكلية. قدمت مجموعة من الباحثين إطاراً تدريبياً مبتكراً يعتمد على الثقة ويدمج بين بيانات الكلام الحقيقية والاصطناعية من خلال آلية ثقة هجينة تجمع بين المقاييس الإدراكية الثابتة ومتغيرات القرب الصوتي، بالإضافة إلى تشتيت النموذج الديناميكي.
بدلاً من الاعتماد على طرق التعديل المباشر، يقوم هذا الإطار بتوظيف استراتيجيات تجميع ثقة ذات وزن ثابت وآخر قابل للتعلم، مما يجعل عملية وزن العينات أثناء التدريب أكثر فعالية. تم تقييم هذا الإطار على مجموعات بيانات طبية لتطبيقات التيلوجو والكانادا والتي تحتوي على تسجيلات حقيقية وأخرى تم توليدها بواسطة تكنولوجيا تحويل النص إلى كلام (TTS).
كما تم استخدام نموذج لغة 5-جرام كين إل إم (KenLM) لتصحيح النتائج بعد فك التشفير. وأظهرت النتائج أن النهج الهجين القائم على الثقة مع الأوزان القابلة للتعلم ساهم في تقليل أخطاء التعرف بشكل كبير: فقد انخفض معدل خطأ الكلمات في التيلوجو من 24.3% إلى 15.8% (تحسين مطلق قدره 8.5%)، بينما انخفض معدل الخطأ في الكانادا من 31.7% إلى 25.4% (تحسين مطلق قدره 6.3%)، مما يتفوق بشكل كبير على طرق التعديل الأساسية.
تؤكد هذه النتائج أن الدمج بين التدريب القائم على الثقة الديناميكية ونمذجة اللغة الإحصائية يعزز الأداء بشكل ملحوظ في مجالات التعرف على الكلام المتخصصة للغات الدرافيدية المعقدة شكلياً. مما يعزز الأمل في تحسين الرعاية الصحية من خلال التقنيات الحديثة.
ما الذي تخيله عن مستقبل التعرف على الكلام في المجالات الطبية؟ هل سيكون هناك المزيد من التطورات في هذا المجال؟ شاركونا آراءكم في التعليقات!
تحسين أداء التعرف على الكلام في المجالات الطبية للغات الدرافيدية: إنجاز ثوري!
يواجه التعرف على الكلام التلقائي في اللغات الدرافيدية تحديات كبيرة في المجالات الطبية. لكن، تم تقديم إطار تدريبي مبتكر يحقق تحسينات كبيرة في الأداء، مما يفتح آفاق جديدة لهذه اللغات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
