تظل تقنية التعرف على الكلام التلقائي (ASR) في حالة تحدٍ مستمر، خصوصًا في التعامل مع التبديل اللغوي (Code-Switching) بين لغتين أو أكثر. يكمن التحدي الأكبر في قلة توفر أزواج نصوص-خطاب ذات جودة عالية، مما يعيق تقدم الأداء في أنظمة التعرف على الكلام المتنوعة.
رغم أن استخدام البيانات الاصطناعية عبر تقنيات تحويل النص إلى كلام (TTS) تم استكشافه في أبحاث سابقة، إلا أن الأساليب الحالية لم تركز بشكل كافٍ على تأمين توافق واضح بين حدود اللغات، مما أدى إلى تقييد فعاليتها في تعزيز أداء التبديل اللغوي.
في هذه الورقة، تم تقديم إطار جديد يستند إلى التعلم الموجه (Preference Learning) واستند إلى مؤشر التبديل اللغوي (Code Mixing Index - CMI). تساعد هذه التقنية في توجيه生成 الكلام الاصطناعي نحو تحسين دقة التبديل اللغوي.
أظهرت التجارب التي أُجريت على مجموعة بيانات SEAME، والتي تشمل محادثات باللغة الماندرينية والإنجليزية، أن الطريقة الجديدة تعزز من فعالية استخدام البيانات الاصطناعية في تحسين أداء نظام التعرف على الكلام (ASR). على وجه الخصوص، عند ضبط نظام Whisper Large، تم تقليص معدل الخطأ المختلط (Mixed Error Rate - MER) من 12.1% إلى 8.9% في مجموعة بيانات DevMAN، ومن 17.8% إلى 14.2% في مجموعة بيانات DevSGE.
تعد هذه النتائج خطوة هامة نحو تعزيز قدرة أنظمة التعرف على الكلام على التعامل مع التبديل اللغوي، مما يفتح الأبواب أمام تطبيقات جديدة في مجال الذكاء الاصطناعي وتحسين تجربة المستخدم.
ثورة جديدة في التعرف على الكلام: تحسين دقة التبديل اللغوي باستخدام تقنيات حديثة!
قدمت ورقة بحثية جديدة منهجًا مبتكرًا لتحسين دقة التعرف على الكلام في اللغات المتعددة. باستخدام إطار تعليمي موجه يساعد في تحقيق نتائج أفضل في التبديل اللغوي، أثبتت التجارب فعالية هذه التقنية في تحسين الأداء بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
