في الآونة الأخيرة، أظهرت أنظمة التعرف التلقائي على الكلام (ASR) عدم كفاءتها في التعرف على الكلام المعوق، حيث أثبتت التجارب أن النماذج الحالية لا تستفيد بشكل كافٍ من القيود السريرية خلال وقت الاستنتاج. تشير النتائج إلى أنه رغم إحتمالية تحسين الأداء من خلال دمج المعلومات السريرية، إلا أن ذلك لم يتحقق بشكل ملموس.
لإجراء دراسة حول هذه القضية، تم إنشاء معيار يعتمد على مجموعة بيانات "مشروع قابلية الوصول للكلام" (Speech Accessibility Project)، حيث تم اختبار مدى تحسين دقة النسخ باستخدام معلومات تشخيصية وتقييمات صوتية مستمدة من الأطباء. ومع ذلك، أظهرت مقارنة النماذج التسعة عدم وجود تحسين ملحوظ في الأداء، بل إن بعض السياقات مثل المعلومات السريرية قد تؤدي في بعض الأحيان إلى تفاقم معدل الأخطاء في الكلمات.
لكن الأمل لا يزال قائماً، حيث أظهرت استراتيجيات التكيف مع هذا السياق، مثل استخدام LoRA (Low-Rank Adaptation)، أن دمج مجموعة متنوعة من صياغات الترويج يمكن أن يحقق تقليلاً نسبته 52% في معدل الأخطاء بينما يتم الحفاظ على الأداء الجيد عند عدم توفر المعلومات. تشير التحليلات الفرعية إلى تحسينات ملحوظة بالنسبة لمستخدمي Down syndrome والمتحدثين بمستويات خفيفة من الإعاقة.
تشير هذه النتائج إلى الفجوات الموجودة في أداء النماذج الحالية وتوفر منصة لقياس التقدم نحو تطوير أنظمة ASR أكثر شمولا، مما يشجع على الابتكار في هذا المجال.
تحديات نماذج الصوت في التعرف على الكلام: كيف يمكن تحسين أداءها لمستخدمي الكلام المعوق؟
تواجه أنظمة التعرف التلقائي على الكلام (ASR) تحديات كبيرة مع الكلام المعوق. تشير دراسة جديدة إلى أن تحسين الأداء يحتاج إلى تحسين استخدام السياقات السريرية، لكن النتائج الحالية لا تدعم ذلك بشكل فعّال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
