في عالم التكنولوجيا الحديثة، تتزايد الحاجة لتوليد الأصوات البشرية بشكل دقيق وبتنوع عالٍ. وهذا هو ما يسعى إليه نموذج يوني فويس (UniVoice)، التطور الجديد في مجال توليد الصوت. يهدف يوني فويس إلى الدمج بين توليد الكلام (Text-to-Speech - TTS) وتوليد صوت الغناء (Singing Voice Synthesis - SVS) ضمن إطار عمل موحّد ومبتكر.

يتميز نموذج يوني فويس بمواجهته التحدي المتمثل في اختلاف متطلبات توليد الصوت والكلام. فبينما يعتمد توليد الكلام على مرونة توجيه النبرات اللغوية، يتطلب توليد الغناء تحكمًا دقيقًا في اللحن وتوافق الإيقاع. لذلك، فإن تطوير نموذج واحد يمكنه إنتاج الاثنين بشكل فعال كان يمثل تحديًا حقيقيًا.

صُمم يوني فويس ليكون هيكلًا متماسكًا، حيث تعتمد آليته على ما يُعرف بمطابقة التدفق الشرطي (Conditional Flow Matching). بدلاً من استخدام تمثيل توجيه غير محدد، يقوم يوني فويس بتفكيك الشرط إلى محتوى ولحن وتوزيع صوتي، حيث يتم ترميز كل عنصر بواسطة وحدات الترميز المناسبة ويتم استخدامه من قبل العمود الفقري المشترك (Diffusion Transformer - DiT).

لصوت الغناء، يتم تمثيل اللحن من خلال تسلسل النوتات الموسيقية MIDI، بينما في توليد الكلام يُستخدم رمز لحن معدَّل يسمح للنموذج لاستنتاج نبرة الكلام من السياق اللغوي والصوتي. هذا التصميم يسمح بالتحكم الواضح في اللحن لصوت الغناء دون فرض قيود اللحن على الكلام.

تم تدريب يوني فويس على 30 ألف ساعة من بيانات الكلام و35 ألف ساعة من بيانات الغناء، وحقق معدل خطأ بنسبة 5.26% في توليد الكلام، وهو ما يتناسب مع أنظمة TTS المخصصة مثل F5-TTS وCosyVoice3. وعند توليد الأغاني، حقق يوني فويس معدل خطأ بنسبة 16.22%، متفوقًا على النموذج الموحد السابق Vevo1.5.

مع هذا التطور، يمكن القول أن يوني فويس يفتح آفاقًا جديدة في عالم الذكاء الاصطناعي وتوليد الأصوات. هل تعتقد أن هذه التقنية ستكون لها تأثير كبير على صناعة الموسيقى والتواصل؟ شاركونا آراءكم في التعليقات!