تعتبر عملية كشف التزييف الصوتي (Spoofed Speech Detection) من التحديات المتزايدة التي تواجه تقنيات الذكاء الاصطناعي، خاصة مع تطور أساليب التزييف مثل تحويل الصوت (Voice Conversion) وهجمات الإعادة (Replay Attacks). وقد أصبح استيعاب الأنظمة لأداء متميز عبر مجموعات بيانات متعددة أمراً بالغ الأهمية.

في هذا السياق، قدمت دراسة جديدة نموذجاً مبتكراً يُعرف بـ "موائم الهرم الزمني" (Temporal Pyramid Adapter)، وهو يعتمد على استخدام تراكبات زمنية متوازية مع مجالات استجابة متنوعة، مما يتيح له التقاط إشارات تزييف متعددة المقاييس، بدءاً من العيوب المحلية وصولاً إلى الاضطرابات الإيقاعية العالمية.

تم دمج تمثيلات XLS-R ذات الإشراف الذاتي مع موائمات إنتاج صوتي أمامية، بما في ذلك تقنيات ميل (Mel) وسينك (Sinc) وتصميم الهرم الزمني بهدف تحسين نمذجة البيانات الزمنية عبر مقاييس متعددة.

لقد أظهرت النتائج التجريبية أنه تم تقييم النموذج المقترح عبر عدة معايير مرجعية بما في ذلك ASVspoof 2017 وASVspoof 2021 (DF/LA) وPartialSpoof وDiffSSD وHQ-MPSD متعددة اللغات، حيث حقق نموذج الهرم الزمني نسبة إيجابية للمنطقة (AUC) تصل إلى 99.24% ونسبة خطأ متساوي (EER) تبلغ 3.87%، مما يتفوق بشكل ملحوظ على النموذج الأساسي وعدد من نماذج التقنية الأحدث مثل LCNN-BLSTM وTRACE.

يثبت التقييم متعدد اللغات أن عيوب التزييف غير مرتبطة بلغة معينة، رغم أن تمثيلات ذات الإشراف الذاتي تعزز من قوة النموذج، إلا أن الأداء يتدهور عند تغيير النطاق واللغة، مما يسلط الضوء على أهمية استراتيجيات التكيف والمعايرة المحسّنة.

بفضل هذه الابتكارات، يبدو أن مستقبل كشف التزييف الصوتي بات أكثر إشراقاً، مما يمهد الطريق لتطبيقات أكثر أماناً وموثوقية في عالم الاتصالات الرقمية.