في عالم الذكاء الاصطناعي، تظل تحديات تتبع الأصوات الاصطناعية مشكلة مفتوحة كيفية ربط نطق صناعي بنظامه الأصلي. حيث أثبتت النماذج التقليدية محدوديتها عند مواجهتها لمولدات غير مرئية، مما يؤدي إلى تنبؤات مبالغ فيها.

للتغلب على هذه المشكلة، تم اقتراح إطار عمل دمج ذو فرعين يجمع بين نموذج XLSR-53 ووصف CORES الذي يتميز بكونه مؤلفًا من 66 بعدًا. هذا الوصف يمكّن النموذج من التقاط المزيد من السمات التصنيعية من خلال تغطيته للعديد من الأبعاد: السلسلة الطيفية (cepstral)، التذبذبية (oscillatory)، الإيقاعية (rhythmic)، الطاقة (energy)، والأبعاد الطيفية (spectral).

تحليل النتائج أظهر أن نموذج XLSR-53 يحافظ على تمييزه عند التدريب الداخلي، بينما يتمكن CORES من التعميم تحت تغييرات التوزيع (out-of-distribution - OOD). ومع ذلك، فإن دمج هذه النماذج بشكل بسيط كان غير فعّال بسبب عدم توازن تمثيل SSL.

لحل هذه المشكلة، تم تطوير بوابة تعتمد على المدخلات لتكييف وزن كل فرع أثناء التدريب المشترك باستخدام دالة الكروس انترتبي (cross-entropy)، بالإضافة إلى خسارة الطاقة للفصل بين النموذجين الداخلي والخارجي، ومصطلح تنوع البوابة. وفقًا لمعيار MLAAD، إن النظام الجديد الذي تم ابتكاره حقق نسبة دقة 97.6% في الإعداد الداخلي، و4.9% في معدل الخطأ المتعلق بالوقت الحقيقي، مع تحسين ملحوظ في تقليل معدل الإيجابيات الخاطئة بنسبة 83.5% مقارنةً بقاعدة بيانات Interspeech 2025.

هذا البحث يشير إلى إمكانية استخدام الابتكارات في الذكاء الاصطناعي لتعزيز دقة وأمن معالجة الأصوات الاصطناعية. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.