تواجه أنظمة التعرف التلقائي على الكلام (ASR) وتحديد المتحدثين باللغة البنغالية تحديات كبيرة، خاصة عند التعامل مع تسجيلات طويلة ومعقدة. في دراسة حديثة، تم تطوير أنظمة قوية لتحسين دقة التعرف على الكلمات وتحديد المتحدثين، موجهة إلى هذه التحديات.

التحديات والابتكارات


تكمن الصعوبة في التعرف على اللغة البنغالية في طبيعة التسجيلات الطويلة وتنوع الظروف الصوتية واختلاف صوت المتحدثين. للتغلب على هذه العقبات، تم استخدام نموذج Whisper (ويزبر) الإقليمي، الذي تم تحسينه على مجموعة بيانات مخصّصة تتكون من حوالي 15,000 مقطع صوتي مُعالج ومتوافق.

تقنيات التحسين


باستخدام تقنيات متنوعة مثل زيادة البيانات عبر إدخال الضوضاء ومحاكاة الانعكاس، تمت معالجة الأداء لتحقيق معدل خطأ منخفض. حيث سجل نظام التعرف على الكلام معدل خطأ في الكلمات (WER) يبلغ 0.2441، وهو إنجاز يضعه في المقدمة. وفي ذات الوقت، تم تحسين نموذج PyAnnote لتحديد المتحدثين، محققًا معدل خطأ في تحديد المتحدثين (DER) يبلغ 0.2392.

خطوات العمل


تشمل عملية التطوير عدة مراحل تشمل معالجة البيانات وتطبيع النصوص وزيادة الصوت والاستراتيجيات التدريبية، إلى جانب تحسين الأداء أثناء الاستدلال والمعالجة النهائية.

تُظهر هذه الابتكارات كيف يمكن تحسين الأنظمة الحالية وتطوير أدوات أكثر كفاءة للتعامل مع لغات متعددة، مما يمهد الطريق لتطبيقات جديدة ومثيرة في عالم الذكاء الاصطناعي.