أقدمت شركة Stability AI بخطوة جريئة في عالم التكنولوجيا الصوتية؛ حيث أعلنت عن إطلاق Stable Audio 3، وهي عائلة جديدة من نماذج الانتشار الكامن (Latent Diffusion Models) المتخصصة في إنشاء الموسيقى الآلية وتأثيرات الصوت.

يتضمن هذا الإصدار أوزانًا مفتوحة للنماذج الصغيرة والمتوسطة، ما يسهل على المطورين والفنانين استخدامها. النماذج الصغيرة تعمل بكفاءة على جهاز MacBook Pro مع معالج M4، بينما توفر النماذج المتوسطة أداءً مميزاً على وحدات معالجة الرسوميات (GPUs) التجارية التي تحتوي على 8 جيجابايت من ذاكرة الوصول العشوائي (VRAM).

واحدة من أبرز ميزات Stable Audio 3 هي قدرتها على توليد الصوت الاستريو (stereo audio) بتردد 44.1 كيلو هرتز، باستخدام عملية تدريب ثلاثية المراحل تتضمن المطابقة بين التدفقات، والتسخين بالتقطير (distillation warmup)، والتدريب بعد التنافس (adversarial post-training).

عند تقييم أدائها في معيار BBC للصوت، حققت النسخة المتوسطة من SA3 نتيجة فريدة بفارق (FAD) بلغ 0.369 عند زمن 5 ثوانٍ، وهو أقل من جميع المعايير التي تم تقييمها في ورقة البحث.

يبدو أن مستقبل تكنولوجيا الصوت يشهد تطورات مثيرة مع هذه النماذج الجديدة، مما قد يفتح آفاقاً جديدة للإبداع الصوتي والتجارب الفنية.

ما رأيكم في هذه التقنية الحديثة؟ هل أنتم متحمسون لتجربتها؟ شاركونا في التعليقات.