لقد شهدت نماذج الذكاء الاصطناعي تقدمًا ملحوظًا في فهم الصوتيات وتوليدها وتحريرها، لكن غالبًا ما كانت هذه القدرات مقصورة على نماذج متخصصة. في هذا السياق، يبرز مشروع Audio-Omni كأول إطار متكامل يجمع بين توليد وتحرير الصوت في مجالات الصوت العام والموسيقى والكلام، مع تقديم قدرات فهم متعددة المجالات.
تعمل بنية هذا الإطار على دمج نموذج لغة واسع النطاق متعدد الوسائط (Multimodal Large Language Model) مع مُحوّل التشتت القابل للتدريب (Trainable Diffusion Transformer) لتحقيق أعلى مستويات الدقة في توليد الصوت.
تتطلع Audio-Omni لتجاوز فجوة البيانات الحرجة في تحرير الصوت، من خلال بناء مجموعة بيانات جديدة تضم أكثر من مليون زوج من نماذج التحرير المنسقة بعناية. وقد أظهرت التجارب أن Audio-Omni ت surpassت الأداء السابق للنماذج الموحدة، محققة نتائج مقارنة أو تفوق على نماذج الخبراء المتخصصة.
بجانب قدراته الأساسية، يُظهر Audio-Omni قدرات متميزة مثل توليد استنتاجات غنية بالمعرفة، وتوليد في سياق معين، والتحكم عابر اللغات بدون الحاجة لمزيد من التدريب (Zero-shot) لتوليد الصوت. يتضح أن هذا الإطار يمثل اتجاهًا واعدًا نحو تحقيق ذكاء صوتي توليدي عالمي.
للاستزادة، ستتوافر الشيفرة النموذج ومجموعة البيانات للجمهور في الرابط [https://zeyuet.github.io/Audio-Omni]. فما هي آراءكم حول هذا التحول الثوري في عالم الصوتيات؟ شاركونا في التعليقات.
ثورة الصوت: اكتشفوا Audio-Omni - الإطار الشامل لتوليد وتحرير الصوتيات!
تمكن مشروع Audio-Omni من دمج قدرات فهم الصوت وتوليده وتحريره في إطار موحد، مما يتيح تطبيقات متعددة المجالات بشكل غير مسبوق. انضموا لرحلة استكشاف هذا الإنجاز الثوري في عالم الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
