اكتشاف أحداث الصوت (Sound Event Detection - SED) يُعد ركيزة أساسية في تحليل البيئة الصوتية، ولكنه غالبًا ما يُعاني من نقص في البيانات المعنونة. بينما يعتمد النظام التقليدي على البيانات المُعلمة، نجحت الأنظمة الحديثة في الاستفادة من نماذج الصوت المُعتمدة على التعلم العميق. ومع ذلك، يظل التكيف الفعال تحديًا كبيرًا أمام نقص البيانات المعنونة مقارنة بتوفر البيانات غير المعنونة بكثرة.

أحد الحلول المُقترحة هو نموذج ATST-SED الذي عمل على معالجة هذه المشكلة من خلال إطار عمل شبه مُعتمد على المُعَوّضات الزائفة. في الدراسة الجديدة، تم تحسين هذا الإطار عبر اعتماد فقدان التناقض على مستوى التضمين المستلهم من نموذج ATST-Frame. يوفر هذا الهدف التنافسي وسيلة أفضل للاستفادة من البيانات غير المعنونة خلال عملية التكييف.

تواجه تقنية mixup تحدي الاختلاف في الأدوار بين الهدفين: حيث يُستخدم mixup في التعليم الزائف كتركيب، بينما تُعتبر مزيجًا في التعلم التنافسي. لتجاوز هذا التحدي، تم اقتراح تقنية mixup الشرطية والتي تجمع بين التركيب والتغيير في إطار عمل شبه مُعتمد، مُحددة الخسائر المقابلة على مستوى التضمين.

النتائج التي تم تحقيقها في النموذج الجديد بلغت 0.645 على مقياس PSDS1 و0.822 على مقياس PSDS2 في مجموعة بيانات DESED للتحقق، مما يجعله نموذجًا يحقق مستوى جديد من الأداء في هذا المجال.