في العصر الرقمي الحالي، أصبحت تقنيات التعرف التلقائي على الكلام (ASR) أدوات حيوية لتعزيز الفهم والتعلم، وخاصة في مجالات مثل تلاوة القرآن الكريم. يهدف نظام ASR للقرآن إلى تحويل التلاوات الصوتية إلى نصوص مكتوبة، مما يتيح تطبيقات مثل أدوات المساعدة في الحفظ ومحركات البحث القرآني.

لكن، رغم تطور هذه التقنيات، تواجه النماذج الحالية تحديات كبيرة، مثل معدل الخطأ المرتفع في النسخ وافتقارها لتغطية شاملة لمحتوى القرآن.

في هذه الدراسة، تم تقديم دراسة منهجية حول كيفية تحسين نماذج التحويل المدربة مسبقاً، باستخدام تقنيات استخراج الميزات الصوتية المتقدمة مثل Wav2Vec2.0 وHuBERT وXLS-R. تعتمد هذه النماذج على التعلم الذاتي من خلال إخفاء أجزاء من المدخلات الصوتية، مما يمكّن نماذج التحويل من التعلم وتحسين ميزات الصوت السياقية.

تم تعديل النماذج المدرّبة مسبقًا على مجموعة بيانات مختارة تتجاوز 870 ساعة من التلاوات المهنية وتلاوات المستخدمين. ومن خلال دراسات شاملة للتأثيرات المختلفة لاستخراج الميزات وصيغ الإخراج واستراتيجيات التدريب ومدد المقاطع الصوتية، تم تعريف العوامل الأساسية التي تؤثر على دقة النسخ في هذا السياق.

تحققت أفضل التكوينات من معدل خطأ كلمة (WER) قدره 0.08 على مجموعة EveryAyah و 0.11 في الإعداد المشترك EveryAyah+Tarteel، وهو تحسن كبير بمقدار خمس نقاط مئوية مقارنة بالأساسيات السابقة. كما تم تقليل الوقت اللازم لتدريب النموذج المشترك من 140 ساعة إلى 40 ساعة.

تشير النتائج إلى أن النصوص العربية بدون حركات تقدم أفضل نتائج للتعديل، وأن نموذج Wav2Vec2-XLSR-53 يوفر أفضل تمثيل. تتطلع البحوث المستقبلية إلى تحسين جودة مجموعة البيانات وتطوير نماذج مدركة للفونيمات لإنتاج تمثيلات صوتية أعمق لتطبيقات تجويد القرآن.

فهل أنتم متحمسون لهذه التطورات في مجال التعرف على الصوت؟ شاركونا آرائكم في التعليقات!