لقد شهدت نماذج الذكاء الاصطناعي تقدمًا ملحوظًا في فهم الصوتيات وتوليدها وتحريرها، لكن غالبًا ما كانت هذه القدرات مقصورة على نماذج متخصصة. في هذا السياق، يبرز مشروع Audio-Omni كأول إطار متكامل يجمع بين توليد وتحرير الصوت في مجالات الصوت العام والموسيقى والكلام، مع تقديم قدرات فهم متعددة المجالات.

تعمل بنية هذا الإطار على دمج نموذج لغة واسع النطاق متعدد الوسائط (Multimodal Large Language Model) مع مُحوّل التشتت القابل للتدريب (Trainable Diffusion Transformer) لتحقيق أعلى مستويات الدقة في توليد الصوت.

تتطلع Audio-Omni لتجاوز فجوة البيانات الحرجة في تحرير الصوت، من خلال بناء مجموعة بيانات جديدة تضم أكثر من مليون زوج من نماذج التحرير المنسقة بعناية. وقد أظهرت التجارب أن Audio-Omni ت surpassت الأداء السابق للنماذج الموحدة، محققة نتائج مقارنة أو تفوق على نماذج الخبراء المتخصصة.

بجانب قدراته الأساسية، يُظهر Audio-Omni قدرات متميزة مثل توليد استنتاجات غنية بالمعرفة، وتوليد في سياق معين، والتحكم عابر اللغات بدون الحاجة لمزيد من التدريب (Zero-shot) لتوليد الصوت. يتضح أن هذا الإطار يمثل اتجاهًا واعدًا نحو تحقيق ذكاء صوتي توليدي عالمي.

للاستزادة، ستتوافر الشيفرة النموذج ومجموعة البيانات للجمهور في الرابط [https://zeyuet.github.io/Audio-Omni]. فما هي آراءكم حول هذا التحول الثوري في عالم الصوتيات؟ شاركونا في التعليقات.