في خطوة ثورية نحو مستقبل تكنولوجيا الصوت، تم الكشف عن نموذج X-Voice، والذي يعتبر أول نموذج استنساخ صوت بلا تدريب مُسبق (Zero-Shot Voice Cloning) يمكنه استنساخ أصوات متعددة وتمكين المستخدمين من التحدث بـ 30 لغة مختلفة. يُعد هذا النموذج الأحدث في عالم الذكاء الاصطناعي، ويعتمد على مكتبة بيانات ضخمة تُقدّر بحوالي 420,000 ساعة من المحتوى الصوتي المتنوع.
يعتمد X-Voice على تمثيل اللغة الموحد باستخدام الأبجدية الصوتية الدولية (IPA)، ويقدم حلًا مبتكرًا لمشكلة الاعتماد على النصوص المُعَدّة مسبقًا. يتم تنفيذ التدريب على مرحلتين: في المرحلة الأولى، يتم تطوير نموذج X-Voice_{ ext{s1}} عبر تدريب تقليدي، والذي يُستخدم لاحقًا لإنشاء تسجيلات صوتية متسقة تُقدر بـ 10,000 ساعة.
أما في المرحلة الثانية، يتم العمل على تحسين هذا النموذج باستخدام أزواج صوتية جديدة، مما يتيح القدرة على استنساخ الصوت بشكل دقيق ودون الحاجة إلى نصوص مرافقة، مما يعزز تجربة المستخدم بشكل كبير ويجعل من X-Voice أداة مثالية للباحثين والمطورين على حد سواء.
التقييمات الموضوعية والذاتية تشير إلى أن X-Voice يتفوق على الأنظمة السابقة مثل LEMAS-TTS، ويحقق نتائج قريبة من نماذج ضخمة باهظة التكلفة. دخول X-Voice إلى السوق يُمثل دفعًا كبيرًا نحو إدماج تقنيات استنساخ الصوت في التطبيقات اليومية. لتمكين البحث والابتكار في هذا المجال، تم فتح مصدر جميع الموارد المتعلقة بالنموذج، مما يُشجع المزيد من التطوير والتفاعل المجتمعي.
ما رأيكم في هذا التطور المثير؟ شاركونا في التعليقات.
X-Voice: اكتشف كيفية التحدث بـ 30 لغة عبر تقنية استنساخ الصوت بدون تدريب مُسبق!
تم إطلاق X-Voice، نموذج استنساخ صوت متعدد اللغات يتيح لأي شخص التحدث بـ 30 لغة. يتميز بقدرات استنساخ صوتي مبتكرة دون الحاجة لتسجيلات مسبقة، مما يحدث ثورة في مجال النماذج الصوتية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
