في إطلالة مستقبلية على تقنيات الذكاء الاصطناعي، يكشف بحث جديد عن كيفية الإجابة على الأسئلة الطبيعية المتعلقة بتسجيلات صوتية تمتد لعدة ساعات. النموذج الجديد المعروف باسم LA-RAG (Long Audio-Retrieval Augmented Generation) يقدم منهجاً مبتكراً يجمع بين التعرف على الأحداث (event recognition) والتوقيت الزمني (temporal grounding) لتوفير إجابات دقيقة وسريعة.

تظهر الأبحاث أن النماذج الحالية من نوع Large Audio-Language Models (LALMs) تعمل بشكل جيد مع مقاطع الصوت القصيرة، لكنها تواجه تحديات كبيرة تشمل حدود في طول السياق، التكاليف الزمنية للاستعلام، وضعف تحديد الزمان. لكن مع LA-RAG، يتم استخدام نموذج Audio Grounding Model (AGM) لتحويل الصوت المستمر إلى سجلات أحداث موثقة زمنياً، مما يسهل تخزينها في قاعدة بيانات SQL للإجابة على الاستفسارات بشكل أكثر فعالية.

ما يميز LA-RAG هو دعمه لوضعي تشغيل مختلفين: وضع تثبيت مسبق عبر الإنترنت حيث يتم فهرسة التسجيلات الطويلة مسبقاً، ووضع تثبيت في زمن الاستنتاج حيث يتم تحديد الزمان وفقاً للاستعلام. في وضعية تثبيت مسبق، حققت LA-RAG دقة إجمالية تصل إلى 76.88% على أدوات Home-IoT و71.10% على Industrial-IoT، مع متوسط زمني للاستعلام يقل عن 0.6 ثانية.

علاوة على ذلك، أظهرت الاختبارات أن النماذج المزودة ببيانات استرجاع منظمة حققت تحسينات ملحوظة في اكتشاف الزمن، حيث زادت قيم F1 بمعدل يتراوح بين 11-17% عبر النماذج الأساسية. هذه النتائج تؤكد أن دقة الطوابع الزمنية (timestamped grounding) والاسترجاع المنظم تعد بمثابة دعم عملي لنماذج الصوت والتفاعل القائمة على الذكاء الاصطناعي.

هل تعتقد أن هذه التقنية ستغير بشكل جذري كيف نتفاعل مع المحتوى الصوتي الطويل؟ شاركونا آراءكم في التعليقات.