تتطور نماذج الصوت واللغة الكبيرة (Large Audio-Language Models) بوتيرة سريعة، حيث نجحت بالفعل في التعرف على محتويات المقاطع الصوتية بشكل فعال. ومع ذلك، لا يزال هناك نقص ملحوظ في قدرتها على الفهم المكاني، أي تحديد موقع الأحداث الصوتية وكيفية ترتيبها في الفضاء. هنا يأتي دور إطار العمل الجديد المعروف باسم "العالم ليس أحاديًا" (The World is Not Mono - TWNM).
يهدف TWNM إلى تعزيز قدرات نماذج الصوت واللغة من خلال تقديم دليل مكاني واضح، حيث يقوم بتطبيق تقنيات محاكاة Ambisonics المرتبطة بالواقع (First-Order Ambisonics - FOA) لضمان إشراف قابل للتحكم. يتم تعلم تمثيلات مكانية منظمة بشكل ديناميكي من خلال استخدام الصوت متعدد القنوات، ودمج هذه التمثيلات مع ميزات الصوت الدلالية.
ولتحقيق ذلك، تم تطوير معايير قياسية تشمل تحليل المشهد الصوتي (Audio Scene Analysis - ASA)؛ وهي عملية تستند إلى ثلاث مستويات تشمل الإدراك الذري (Atomic Perception) والتكامل العلاقي (Relational Integration) والتفكير الاستدلالي (Cognitive Reasoning). تم بناء معايير تقييم مراقبة تغطي جوانب مثل تحديد المواقع، ربط الخصائص، والمقارنة المكانية.
في الاختبارات التي أجريت، حقق TWNM دقة إجمالية بلغت 70.8% و66.4% في مهام الفهم المكاني، و79.76% في اختبارات متعددة الخيارات ذات المستوى المشهدي. كما تم تدقيق النماذج المرجعية المونوال والبينورية كنقاط مرجعية تشخيصية للتأكد من دقة الفهم. يُظهر البحث أن وجود هرم واضح لتحليل المشهد الصوتي مع تمثيلات مكانية مشروطة FOA يمكن أن يعزز من عملية التفكير الصوتي المكاني بشكل مُحكم يمكن تدقيقه.
العالم ليس أحاديًا: تمكين الفهم المكاني في نماذج الصوت واللغة الكبيرة!
تسجل نماذج الصوت واللغة الكبيرة تقدمًا سريعًا في فهم محتويات المقاطع الصوتية، ولكنها لا تزال بحاجة إلى تطوير الفهم المكاني. يتناول هذا المقال إطار عمل جديد يعمل على تحسين كيفية إدراك هذه النماذج للأصوات في بيئات متعددة الأبعاد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
