في الفترة الأخيرة، برزت نماذج اللغات الكبيرة المتعددة الوسائط (Multimodal Large Language Models) كأداة رائدة في معالجة البيانات الصوتية. لكن، ومع التركيز على معالجة الإشارات الصوتية كأصوات وحيدة (Monaural Signals)، ضاعت العديد من الإشارات المكانية المهمة التي تعزز من فهمنا لمواقع الصوت والعلاقات المكانية. هنا تأتي تقنية Spatial-Omni، التي تعتبر طريقة خفيفة وفعالة تعمل على تحسين هذا الجانب من خلال إدخال مدخلات الصوت المكاني باستخدام تقنية First-Order Ambisonics (FOA).

تتيح تقنية SO-Encoder دمج الصوت المكاني كمدخل مستقل في نماذج Omni LLMs، مما يعني أننا نستطيع الاستفادة من الإشارات المكانية من دون الحاجة إلى تعديل وحدات معالجة الصوت الحالية. هذا التطور يفتح أمامنا آفاقاً جديدة في تحسين فهم الصوت المكاني دون الحاجة إلى تكلفة إضافية كبيرة.

لتسهيل عملية التدريب والتقييم، تم إنشاء مجموعة بيانات SO-Dataset، والتي تحتوي على 400 ألف مقطع صوتي مكاني و 2.1 مليون سؤال إجابة عن العلاقة المكانية. تشمل الاختبارات التي تمت ضمن SO-Bench 16 مهمة لفهم الصوت المكاني، بما في ذلك كشف المواقع وفهم العلاقات المكانية وأساليب استدلال معقدة.

تجارب الأداء أظهرت أن Spatial-Omni تتفوق على نماذج السمع الكبيرة المتاحة مفتوحة المصدر (Large Audio-Language Models) والنماذج الأخرى في فهم الصوت المكاني، في حين لا تزال تحتفظ بمستوى مناسب من الفهم العام للصوت. هذه التطورات تدعو الى التفكير في كيف يمكن أن تؤثر على مستقبل معالجة الصوت في النماذج الذكاء الاصطناعي.

ما رأيكم في هذه التقنية الجديدة؟ هل تعتقدون أنها ستحدث فارقًا كبيرًا في تحسين فهم الذكاء الاصطناعي للأصوات؟ شاركونا في التعليقات.