تعتبر عملية التعرف الآلي على الكلام الطويل (Long-Form Automatic Speech Recognition - ASR) من التحديات الكبيرة التي تواجه العلماء والمهندسين. عادة ما تتطلب هذه العمليات دقة عالية وزمن استجابة منخفض، إلا أن الأنظمة الموجودة حالياً تضطر المستخدمين للاختيار بين هذين العاملين الهامين.
تستخدم الأنظمة التقليدية النماذج المعتمدة على تقسيم الصوت إلى أقسام (Chunk-Based Pipelines)، مما يسمح لها بزيادة سرعة الاستجابة، لكنها تفقد سياق المعلومات بين تلك الأقسام، مما يؤدي إلى تعقيدات في محاذاة المتحدثين والتوقيت عند الحدود.
من ناحية أخرى، تقدم نماذج ASR ذات السياق الطويل (Long-Context ASR) دقة أعلى من خلال معالجة المعلومات في عملية واحدة، لكن عيبها هو بطء الأداء بشكل كبير.
هنا يأتي دور نظام MURMUR، الذي يقدم حلاً مبتكرًا يجمع بين هذين العاملين. يعتمد MURMUR على نموذج يعمل على مستويين.
في المستوى الأول (Inter-Chunk Level)، يتم مراجعة أسلوب تقسيم الصوت إلى أقسام مع معالجة حديثة لزيادة الكفاءة. يتم تعديل حجم كل قسم كخيار قابل للتخصيص، مما يتيح تحقيق توازن مثالي بين الدقة والسرعة.
أما في المستوى الثاني (Intra-Chunk Level)، يستفيد النظام من تقنية التخفيف في الانتباه (Attention Sparsity) من خلال تطبيق سياسة إخلاء التخزين المؤقت (KV Cache Eviction Policy) على كلا من نتائج التعرف والكلمات المنطوقة.
عبر اختبارات على مجموعة بيانات AMI-IHM، أظهر نظام MURMUR قدرة عالية في تحقيق دقة التعرف من خلال معالجة واحدة، مع تقليل الزمن المستغرق بنسبة 4.2 مرة، دون التأثير بشكل كبير على الجودة بنقص نسبي لا يتجاوز 1%.
للاستزادة، يمكنكم تحميل الشيفرة المصدرية للنظام عبر [https://github.com/uw-syfi/Murmur]. ما رأيكم في هذه التطورات الرائعة في مجال التعرف على الصوت؟ شاركونا في التعليقات.
اكتشف نظام MURMUR: الحل الرائد في تحسين دقة التعرف على الصوت الطويل!
يدخل نظام MURMUR ثورة جديدة في مجال التعرف الآلي على الكلام الطويل، حيث يجمع بين الدقة العالية والسرعة الفائقة. تعرف على كيفية تخطيه التحديات التقليدية في هذا المجال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
