أقدمت شركة Stability AI بخطوة جريئة في عالم التكنولوجيا الصوتية؛ حيث أعلنت عن إطلاق Stable Audio 3، وهي عائلة جديدة من نماذج الانتشار الكامن (Latent Diffusion Models) المتخصصة في إنشاء الموسيقى الآلية وتأثيرات الصوت.
يتضمن هذا الإصدار أوزانًا مفتوحة للنماذج الصغيرة والمتوسطة، ما يسهل على المطورين والفنانين استخدامها. النماذج الصغيرة تعمل بكفاءة على جهاز MacBook Pro مع معالج M4، بينما توفر النماذج المتوسطة أداءً مميزاً على وحدات معالجة الرسوميات (GPUs) التجارية التي تحتوي على 8 جيجابايت من ذاكرة الوصول العشوائي (VRAM).
واحدة من أبرز ميزات Stable Audio 3 هي قدرتها على توليد الصوت الاستريو (stereo audio) بتردد 44.1 كيلو هرتز، باستخدام عملية تدريب ثلاثية المراحل تتضمن المطابقة بين التدفقات، والتسخين بالتقطير (distillation warmup)، والتدريب بعد التنافس (adversarial post-training).
عند تقييم أدائها في معيار BBC للصوت، حققت النسخة المتوسطة من SA3 نتيجة فريدة بفارق (FAD) بلغ 0.369 عند زمن 5 ثوانٍ، وهو أقل من جميع المعايير التي تم تقييمها في ورقة البحث.
يبدو أن مستقبل تكنولوجيا الصوت يشهد تطورات مثيرة مع هذه النماذج الجديدة، مما قد يفتح آفاقاً جديدة للإبداع الصوتي والتجارب الفنية.
ما رأيكم في هذه التقنية الحديثة؟ هل أنتم متحمسون لتجربتها؟ شاركونا في التعليقات.
إكتشافات مذهلة في عالم الصوت: Stability AI تُطلق Stable Audio 3 للجيل المتقدم والتعديل!
أعلنت Stability AI عن إصدار Stable Audio 3، مجموعة متميزة من نماذج الانتشار الكامن (Latent Diffusion Models) التي تهدف إلى إنشاء وتعديل الموسيقى والأصوات. يتميز الإصدار بتوفير أوزان مفتوحة لنماذج صغيرة ومتوسطة، ليكون متاحاً للجميع.
المصدر الأصلي:مارك تيك بوست
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
