شهد مجال التعرف على الصوت (ASR) في الآونة الأخيرة تطورات مذهلة، كان أحدثها الابتكار الذي قدمته Whisfusion. في السابق، كانت النماذج المعتمدة على التعميم التلقائي (AR) تتسم بجودة عالية في معالجة العديد من اللغات، ولكن كانت تعاني من مشاكل تتعلق بتأخير التخمين بسبب اعتمادها على فك التشفير من اليسار إلى اليمين. ومع ذلك، جاء نموذج Whisfusion ليحل هذه المشكلة، مقدماً طريقة فك تشفير غير تلقائية (NAR) تعتمد على أسلوب جديد يسمى انتشار مقنع (Masked Diffusion).

لقد تم تصميم Whisfusion ليعمل على تحسين كيفية فهم الآلات للكلام من خلال تدريب نموذج فك تشفير مقنع خاص باستخدام انبعاثات صوتية من نموذج Whisper-large-v3. يتم تدريب النظام على حوالي 68,000 ساعة من الكلام بعشر لغات، مع تحسينات خاصة للتأكد من توافق التدريب مع بداية التشفير الكامل عند الاستدلال.

النتائج كانت مثيرة للإعجاب، حيث تفوق Whisfusion على Whisper-large-v3 من حيث متوسط الدقة على مجموعة من التقييمات تتضمن الإنجليزية والأوروبية والصينية. ليس فقط ذلك، بل إن سرعة الأداء كانت أربع إلى خمس مرات أسرع، متفوقةً أيضاً على Whisper-turbo.

هذه التطورات تشير بوضوح إلى أن أسلوب الانتشار المقنع يعتبر نهجاً غير تلقائي ذا كفاءة عالية في النسخ المتعددة اللغات، مما يعيد تشكيل الطريقة التي نفكر بها في تقنيات التعرف على الصوت مستقبلاً. للمزيد من التفاصيل، يمكنكم زيارة موقع GitHub الخاص بالمشروع.