مع التقدم السريع الذي يشهده مجال نماذج الكلام (Speech Language Models)، أصبحت توكنات الكلام (Speech Tokens) جزءًا أساسيًا في ربط الصوت بالنص، مما يمهد الطريق لنمذجة موحدة بين الأنماط المختلفة. وتستهدف الأساليب الحديثة في توكنات الكلام عزل المعلومات الدلالية عن الإشارات الصوتية ذات المستوى المنخفض بهدف تحقيق توافق أفضل مع نماذج اللغة (Language Models).
بالإضافة إلى ذلك، تعتمد الطرق السابقة على تعلم ذاتي الإشراف (Self-Supervised Learning) مثل HuBERT لاستخراج التمثيلات الدلالية، والتي يتم تنقيحها لاحقًا في كميّس دلالي (Semantic Quantizer) للحد من الازدواجية الصوتية والتقاط الهياكل الكامنة المتعلقة بالمحتوى. ومع ذلك، تعمل هذه الكميّسات غالبًا بمعدلات إطارات مرتفعة نسبيًا، مما ينتج تسلسلات توكن طويلة جدًا مقارنة بالنصوص، مما يعيق التكامل السلس مع نماذج اللغة المدربة مسبقًا.
على الرغم من أن الأساليب الحديثة حاولت تقليل معدل التوكنات من خلال تطبيق تجميع متوسط موحد على ميزات التعلم الذاتي الإشرافي، إلا أن هذا قد يؤدي إلى تنعيم زائدة للمناطق المحتوية على المعلومات ويضعف المعلومات الهيكلية، مما قد يحد من توافقها مع نماذج اللغة.
لذا، نقدم لكم LM-SPT، طريقة توكين الكلام المعتمدة على نماذج اللغة التي تعتمد على إعادة تركيب الصوت الدلالي. بدلًا من مطابقة ميزات المعلم والطالب عبر التجميع، تقوم LM-SPT بإعادة تركيب الصوت من توكنات دلالية فقط وتقلل الفجوة بين التمثيلات المستخرجة من الموجات الأصلية والمُعاد تركيبها باستخدام مُشفّر صوتي متوافق مع نماذج اللغة. هذه الإشراف غير المباشر يتجنب المطابقة الزمنية الصارمة ويشجع على وحدات دلالية مخصصة تكون أكثر توافقًا مع نماذج اللغة مع تقليل معدلات الإطارات.
تُظهر النتائج التجريبية أن LM-SPT تتفوق باستمرار على الكميّسات الصوتية المحسّنة دلاليًا السابقة عندما تُطبق على نماذج الكلام، سواء في مهام التعرف التلقائي على الكلام أو في تحويل النص إلى كلام، دون المساس بجودة إعادة تركيب الصوت على مستوى الترميز.
ثورة في التعرف على الصوت: LM-SPT وتحسين توكنات الكلام!
تقدم تقنية LM-SPT طفرة نوعية في تحسين توكنات الكلام عبر نماذج اللغة، مما يعزز الربط بين الصوت والنص. هذه الطريقة الجديدة تسهم في تحسين دقة التعرف على الكلام وتوليد الصوت بشكل دوري.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
