Whisfusion: ثورة جديدة في فك التشفير الصوتي باستخدام انتشار مقنع

Q: ما هو موضوع مقال "Whisfusion: ثورة جديدة في فك التشفير الصوتي باستخدام انتشار مقنع"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "Whisfusion: ثورة جديدة في فك التشفير الصوتي باستخدام انتشار مقنع" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

شهد مجال التعرف على الصوت (ASR) في الآونة الأخيرة تطورات مذهلة، كان أحدثها الابتكار الذي قدمته Whisfusion. في السابق، كانت النماذج المعتمدة على التعميم التلقائي (AR) تتسم بجودة عالية في معالجة العديد من اللغات، ولكن كانت تعاني من مشاكل تتعلق بتأخير التخمين بسبب اعتمادها على فك التشفير من اليسار إلى اليمين. ومع ذلك، جاء نموذج Whisfusion ليحل هذه المشكلة، مقدماً طريقة فك تشفير غير تلقائية (NAR) تعتمد على أسلوب جديد يسمى انتشار مقنع (Masked Diffusion).

لقد تم تصميم Whisfusion ليعمل على تحسين كيفية فهم الآلات للكلام من خلال تدريب نموذج فك تشفير مقنع خاص باستخدام انبعاثات صوتية من نموذج Whisper-large-v3. يتم تدريب النظام على حوالي 68,000 ساعة من الكلام بعشر لغات، مع تحسينات خاصة للتأكد من توافق التدريب مع بداية التشفير الكامل عند الاستدلال.

النتائج كانت مثيرة للإعجاب، حيث تفوق Whisfusion على Whisper-large-v3 من حيث متوسط الدقة على مجموعة من التقييمات تتضمن الإنجليزية والأوروبية والصينية. ليس فقط ذلك، بل إن سرعة الأداء كانت أربع إلى خمس مرات أسرع، متفوقةً أيضاً على Whisper-turbo.

هذه التطورات تشير بوضوح إلى أن أسلوب الانتشار المقنع يعتبر نهجاً غير تلقائي ذا كفاءة عالية في النسخ المتعددة اللغات، مما يعيد تشكيل الطريقة التي نفكر بها في تقنيات التعرف على الصوت مستقبلاً. للمزيد من التفاصيل، يمكنكم زيارة موقع GitHub الخاص بالمشروع.

Whisfusion: ثورة جديدة في فك التشفير الصوتي باستخدام انتشار مقنع

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

جوجل تطلق ميزة الذكاء الشخصي جيمني في الهند: تجربة مخصصة في متناول يدك!

أوبن أيه آي تستحوذ على شركة هيرو لتكنولوجيا التمويل الشخصي: خطوة نحو التخطيط المالي الذكي!