في خطوة كبيرة نحو تحسين تكنولوجيا تحويل النص إلى كلام (TTS)، أعلن فريق ZONOS2 عن إصدار نموذجهم الجديد ZONOS2 8B، الذي يتميز بمعايير غير مسبوقة من حيث الطبيعية (naturalness) والدقة في تقليد الصوت (voice cloning fidelity).
يتجاوز ZONOS2 8B النسخة السابقة Zonos-v0.1 من حيث الحجم والبيانات ووصفة التدريب، حيث عملت الشركة على زيادة حجم النموذج من 1.6 مليار إلى 8 مليار معلمة (parameters)، مما يسمح بتحسين زمن الاستجابة (inference latency) وزيادة قدرة المعالجة (throughput) الفعالة بفضل استخدام بنية جديدة تُسمى مزيج الخبراء (mixture-of-experts - MoE).
لكن الأمر لا يتوقف عند هذا الحد! فقد وسعت ZONOS2 من قاعدة بيانات التدريب الخاصة بها، حيث زادت عدد الساعات التدريبية من 200,000 إلى أكثر من 6 ملايين ساعة باستخدام خط معالجة بيانات مبتكر. وهذا يعزز بشكل كبير من جودة النموذج.
تم تبسيط الوصفات المستخدمة بعد التدريب (post-training) والتكييف لتحسين طبيعة الصوت وجودة تقليد الصوت. لقد تم تقييم ZONOS2 8B بناءً على جودة الأداء، تشابه المتحدث، نسبة الأخطاء عند التعرف على الكلمات (WER)، ومعيار تقييم تحويل النص إلى كلام الجديد ZTTS1-Eval، حيث أظهر النموذج أداءً تنافسياً مع أنظمة رائدة في المجال، مع الحفاظ على زمن استجابة جيد في عمليات البث (streaming latency).
وللتيسير على المطورين، تم إصدار أوزان النموذج وكود استنتاج (inference) أمثلة تحت رخصة Apache 2.0 على GitHub وHugging Face. إذا كنت مطورًا أو مهتمًا بالتكنولوجيا، يمكنك البدء في استكشاف هذا النموذج الثوري والعمل به في مشاريعك الخاصة.
ما رأيكم في هذه التطورات في تكنولوجيا تحويل النص إلى كلام؟ شاركونا في التعليقات!
استكشف ZONOS2: نموذج تحويل النص إلى كلام الجديد بثورة في الدقة والطبيعية!
أعلن فريق ZONOS2 عن إطلاق نموذجهم الجديد ZONOS2 8B، الذي يعمل بتقنية تحويل النص إلى كلام (TTS) ويحقق معايير جديدة من حيث الطبيعية والدقة. مع تحسينات كبيرة في البيانات والتدريب، يعد هذا النموذج رائداً في مجاله.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
