في عالم الذكاء الاصطناعي، تتطور تقنيات توليد الصوت بوتيرة مذهلة. واحدة من أبرز هذه التطورات هي تقنية "توجيه المصنف" (Classifier Guidance) التي تهدف إلى التحكم في عملية توليد الصوت من خلال استخدام مصنف يرتكز على الضجيج لتوجيه عملية العينة إلى فئة مستهدفة. ولكن، كانت هنالك مشكلة تتمثل في أن هذه التقنية تتطلب نموذجين مدربين بشكل منفصل: مصنف ونموذج انحراف.
لذا، قام الباحثون بدراسة بديل أكثر تكاملاً يتضمن إعادة استخدام مصنف الكلام التقليدي ليكون العمود الفقري لعملية توليد الصوت. تبدأ العملية بمصنف مغلق (Frozen) معتمد على الضجيج في فضاء اللوج-ميل (log-Mel space)، حيث يتم إرفاق شبكة فرعية خفيفة تعيد استخدام التمثيلات المتوسطة من المصنف وتدريب هذه الشبكة الفرعية فقط ضمن هدف مطابقة درجة إزالة الضجيج (Denoising Score Matching).
إبداعات هذا العمل أثبتت أنه يمكن إعادة استخدام مصنف مدرب مسبقًا لتوليد صوت بشكل مشروط، مما يوفر جسرًا مثيرًا بين النمذجة التمييزية (Discriminative Modeling) وتوليد الصوت المشروط (Conditional Speech Synthesis). النتيجة النهائية هي جودة صوت عالية ضمن نموذج واحد، مع تقليل استخدام الذاكرة والتكلفة الحسابية. هل سنشهد المزيد من الابتكارات المماثلة في مجالات أخرى قريبا؟
ثورة في توليد الصوت: إعادة استخدام مصنف الكلام لتعزيز نماذج الانحراف
استكشاف آفاق جديدة في توليد الصوت من خلال إعادة استخدام مصنف الكلام كقاعدة لنماذج الانحراف. هذا الابتكار يعد بتوفير جودة صوت عالية بتكلفة حسابية منخفضة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
