تتطور تقنيات تحويل النص إلى كلام (Text-to-Speech) بسرعة، مما يتيح للمستخدمين التحكم في أسلوب الحديث بشكل أكثر دقة ومرونة. في الآونة الأخيرة، نشرت مجموعة من الباحثين ورقة علمية تناقش كيفية تحقيق تحكم دقيق في أسلوب الحديث باستخدام نماذج تعتمد على التعليمات.
تعتبر هذه النماذج مفيدة للغاية، حيث تتيح تحكمًا طبيعيًا مدفوعًا باللغة، ولكنها واجهت تحديات في توفير تحكم دقيق عبر الفقرات. كانت الأنماط المستخدمة غالبًا واحدة على مستوى النص بالكامل، مما يقيد مجموعة واسعة من التطبيقات العملية التي تتطلب تنقلات سلسة بين أنماط الكلام المختلفة.
لتجاوز هذه العقبة، اقترح الباحثون تقنيات جديدة تتضمن حساب متجهات الاتجاه بين أنماط التعليم المتعارضة في فضاء التضمين، مما يسمح بانتقالات سلسة. أما بالنسبة للانتقالات داخل العبارة، فقد تم تحديد ميل قوي نحو الرموز الأولية في نماذج TTS التكرارية، مما يشير إلى أن البداية تؤثر بشكل كبير على ما يليها. من خلال تطبيق تقنيات مثل تبديل ذاكرة المفتاح وقناع الانتباه، تمكن الباحثون من تحسين هذه التجربة.
تظهر التجارب أن تقنيات الانتقالات بين العبارات حققت معدل نجاح من 99-100% في تحويل الجنس، وتغيرات في النغمة تصل إلى 36 هرتز، وسرعة تصل إلى 1.6 مقطع في الثانية. بينما حققت الانتقالات داخل العبارة تشابهًا صوتيًا يتراوح بين 0.81-0.91 ودرجات سلاسة إدراكية بين 3.48-4.48.
إذن، هل ستغير هذه الابتكارات مستقبل تفاعلنا مع أجهزة تحويل النص إلى كلام؟ ننتظر آراءكم وتعليقاتكم حول هذا التطوير المثير!
تحكم دقيق في أسلوب الحديث: ثورة جديدة في نماذج تحويل النص إلى كلام
تقدم تقنيات جديدة في نماذج تحويل النص إلى كلام (TTS) القدرة على التحكم الدقيق في أسلوب الحديث، مما يحدث نقلة نوعية في إمكانية استخدامها. البحث يوفر حلولاً مبتكرة لتحسين الانتقالات بين الأنماط المختلفة داخل وخارج العبارات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
