في عالم الذكاء الاصطناعي، تواجه نماذج اللغة الصوتية (Audio Language Models - ALMs) تحديات كبيرة، خصوصاً عندما يتعلق الأمر بتسجيلات طويلة يمكن أن تضعف فيها الأحداث النادرة بسبب الأنماط الخلفية المسيطرة. هنا يُدخل البحث الجديد "ناياكا" (NAACA)، والذي يمثل قفزة نوعية في كيفية توزيع الانتباه في التعرف على الصوت.

"ناياكا"، أو هيكلية معرفية انتقائية سمعية غير متطلبة للتدريب، تقوم بإعادة تصور توزيع الانتباه كمسألة تصفية للسمات السمعية. في قلب هذا النظام تكمن الذاكرة العاملة الموجية (Oscillatory Working Memory - OWM)، المستوحاة من الأعصاب، التي تحافظ على حالات استقرار تشبه الجاذبية وتثير معالجة ALM عندما تشير تقلبات الطاقة التكيفية إلى أهمية إدراكية، مما ينبه إلى الحاجة للتفكير الأعلى.

عند اختبارها على مجموعة بيانات "XD-Violence"، أظهرت "ناياكا" تحسناً كبيراً في الدقة المتوسطة للـ AudioQwen، حيث ارتفعت من 53.50% إلى 70.60%، مما يقلل من الدعوات غير الضرورية لنماذج اللغة الصوتية. كما أظهرت الدراسات التجريبية على مجموعة بيانات "Urban Soundscapes of the World" (USoW) أن OWM قادرة على التقاط الأحداث الجديدة والتغييرات داخل الفئات، مع الحفاظ على قدرتها على مواجهة الضوضاء الحضرية والتوقفات العابرة.

تعد هذه الابتكارات خطوة رئيسية نحو تحسين قدرة الأنظمة الذكية على فهم البيئة المحيطة بها، مما يفتح الأبواب لأبعاد جديدة من تكنولوجيا الذكاء الاصطناعي مع التركيز على الصوت. هل نحن أمام إنجاز سيعيد تعريف تفاعلنا مع العالم السمعي؟