التحديات والابتكارات
تكمن الصعوبة في التعرف على اللغة البنغالية في طبيعة التسجيلات الطويلة وتنوع الظروف الصوتية واختلاف صوت المتحدثين. للتغلب على هذه العقبات، تم استخدام نموذج Whisper (ويزبر) الإقليمي، الذي تم تحسينه على مجموعة بيانات مخصّصة تتكون من حوالي 15,000 مقطع صوتي مُعالج ومتوافق.
تقنيات التحسين
باستخدام تقنيات متنوعة مثل زيادة البيانات عبر إدخال الضوضاء ومحاكاة الانعكاس، تمت معالجة الأداء لتحقيق معدل خطأ منخفض. حيث سجل نظام التعرف على الكلام معدل خطأ في الكلمات (WER) يبلغ 0.2441، وهو إنجاز يضعه في المقدمة. وفي ذات الوقت، تم تحسين نموذج PyAnnote لتحديد المتحدثين، محققًا معدل خطأ في تحديد المتحدثين (DER) يبلغ 0.2392.
خطوات العمل
تشمل عملية التطوير عدة مراحل تشمل معالجة البيانات وتطبيع النصوص وزيادة الصوت والاستراتيجيات التدريبية، إلى جانب تحسين الأداء أثناء الاستدلال والمعالجة النهائية.
تُظهر هذه الابتكارات كيف يمكن تحسين الأنظمة الحالية وتطوير أدوات أكثر كفاءة للتعامل مع لغات متعددة، مما يمهد الطريق لتطبيقات جديدة ومثيرة في عالم الذكاء الاصطناعي.
