في ظل القيود المفروضة على جمع البيانات الحقيقية في مجالات مثل البنوك والرعاية الصحية، يصبح الصوت الاصطناعي (Synthetic Speech) خياراً جذاباً لتدريب أنظمة التعرف على الصوت الآلي (ASR). تكمن المشكلة الرئيسية في وجود فجوة دائمة بين البيانات الاصطناعية والبيانات الحقيقية، مما يعيق قدرة الصوت الاصطناعي على استبدال التسجيلات الأصلية بشكل كامل.

تتجاهل الدراسات السابقة هذه الفجوة غالباً باعتبارها تحدٍ تقني، بينما قام الباحثون في هذه الدراسة الجديدة باستكشاف أصل هذه الفجوة عن طريق تحليل بنية نظام SLAM-ASR. لقد اكتشفوا الأماكن التي يميز فيها العمود الفقري للنماذج اللغوية الكبيرة (LLM) بين الصوتيات الحقيقية والاصطناعية، حيث يكون الإشارة المميزة مركزة في الطبقات الوسطى، حيث تؤدي الاضطرابات الزمنية والإيقاعية إلى حدوث اختلال.

دراسة أخرى أظهرت أن تحويل الصوت الاصطناعي باستخدام استجابة نبض الغرفة (RIRs) يمكن أن تضيق الفجوة، ليس بجعل الصوت الاصطناعي أنظف أو أكثر طبيعية، بل من خلال استنساخ العيوب الصوتية للتسجيلات الحقيقية. من خلال دمج هذه النتائج في إجراءات التدريب، باستخدام وحدة اختيار الطبقات مع تضخيم RIR، استطاعت الدراسة تحقيق نتائج تتوافق مع البيانات الحقيقية باستخدام 25% فقط من بيانات الصوت الحقيقي.

هذه الاكتشافات تمثل خطوات جديدة نحو تحسين أنظمة التعرف على الصوت وتعزيز الخصوصية في المجالات الحساسة.

ما رأيكم في فوائد استخدام الصوت الاصطناعي في مجالات حساسة؟ شاركونا آرائكم في التعليقات!