تشهد تقنيات اكتشاف تزوير الصوت (Audio Deepfake Detection) تقدمًا ملحوظًا في السنوات الأخيرة، حيث تضافرت الجهود الأكاديمية لتجاوز العقبات السابقة في هذا المجال. رغم ذلك، تواجه هذه التقنيات تحديات كبيرة تتعلق بالقدرة على التعميم عبر المتحدثين، إذ تميل الأنظمة الحالية إلى اكتساب ميزات مرتبطة بهوية المتحدث بدلاً من التركيز على ميزات الاصطناع، مما يعرف بتسرب الهوية الضمنية (Implicit Identity Leakage).

للتغلب على هذه التحديات، قدمت الأبحاث الجديدة إطار عمل يعتمد على تفكيك متقدم ذا مستويين (Dual-Granularity Orthogonal Disentanglement). يهدف هذا الإطار إلى فرض استقرارية الميزات بطريقة مبتكرة، حيث يعمل مستوى تفكيك الخصائص على تحقيق زوايا متعامدة في عينة البيانات، بينما يُعنى مستوى تفكيك المجموعة بإزالة التداخلات الخطية بين الأبعاد المضمومة.

تستفيد الطريقة من جدول زمني تدريجي لتقوية القيود بشكل تدريجي دون الحاجة إلى شبكات مساعدة أو ديناميكيات تنافسية، مما يقلل من التعقيد المعماري وعدم الاستقرار التدريبي الذي كانت تعاني منه الطرق السابقة.

فيما يتعلق بالنتائج، أظهرت التجارب التي أجريت على مجموعات بيانات متنوعة مثل ASVspoof 2019 LA وASVspoof 2021 DF ومجموعات بيانات In-the-Wild أن هذه الطريقة حققت معدلات خطأ متساوية بلغت 1.35% و7.88% و21.58% على التوالي. كما سجلت تفوقًا على تقنيات التفكيك السابقة بمعدل تحسن قدره 2.60%.

تؤكد هذه الإنجازات على القدرة الكبيرة لهذه التكنولوجيا الجديدة في تعزيز دقة وكفاءة أنظمة كشف تزوير الصوت، مما يمهد الطريق لتطبيقات مستقبلية أكثر قدرة واستدامة.