في عالم الذكاء الاصطناعي، يظهر كل يوم ابتكار جديد يأخذنا نحو آفاق غير متوقعة. واليوم، نسلط الضوء على انطلاقة جديدة في هذا المجال مع إعلان Stable Audio 3، التي تعد عائلة من نماذج الانتشار (Diffusion Models) السريعة لتوليد وتحرير الصوت المتغير الطول. وبفضل هذه النماذج، يمكن للمستخدمين توليد مقاطع صوتية تصل إلى عدة دقائق في زمن قياسي، مما يجعل من الممكن التعامل مع الأصوات القصيرة دون الحاجة لتكاليف إنتاجية مرتفعة.
تتميز Stable Audio 3 بدعمها لعملية التلوين (Inpainting)، وهو ما يسمح بتحرير صوتي مستهدف واستكمال التسجيلات القصيرة بشكل احترافي. كما أن نماذج الانتشار الكامنة (Latent Diffusion Models) تشتغل فوق مشفر صوتي جديد (Semantic-Acoustic Autoencoder) الذي يقوم بتحويل الصوت إلى فضاء كامن مضغوط، مما يسهم في تحسين عملية التوليد القائمة على الانتشار بينما يحافظ على جودة الصوت ويعزز الهيكل الدلالي فيه.
ولتحقيق المزيد من الكفاءة، تم استخدام تقنيات التدريب المتواري (Adversarial Post-Training) لتسريع عملية الاستنتاج (Inference) وتحسين جودة التوليد، مما يقلل من عدد خطوات الاستنتاج مع زيادة الدقة والامتثال للأوامر المُعطاة. تضم نماذج Stable Audio 3 التي تم تدريبها على بيانات مرخصة وCreative Commons، القدرة على إنتاج الموسيقى والأصوات في أقل من ثانيتين على وحدات المعالجة (GPU) H200 وأقل من بضع ثوانٍ على جهاز MacBook Pro M4.
كما تم إصدار أوزان النماذج الصغيرة والمتوسطة التي يمكن تشغيلها على الأجهزة ذات الجودة الاستهلاكية، مع توفير مسار التدريب والاستنتاج الخاص بها. إن هذا التطور يعد بفتح آفاق جديدة للإبداع في مجال الصوتيات، مما يمنح فنانين ومدوني الصوت أدوات مبتكرة للتعبير عن أفكارهم بطريقة جديدة وجذابة. هل أنتم مستعدون لاستكشاف هذه التطورات في عالم الصوت؟ شاركونا آرائكم في التعليقات!
ثورة في عالم الصوت: استكشف قوة Stable Audio 3 لتوليد وتحرير الصوت بسرعة مذهلة!
تقدم Stable Audio 3 نماذج سريعة لتوليد الصوت وتحريره، مما يتيح إنتاج مقاطع صوتية متغيرة الطول بكفاءة. الفوائد تشمل تحرير الصوت المستهدف وتحسين جودة الصوت بفضل تقنيات مبتكرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
