تعتبر تقنية كشف الأحداث الصوتية (Sound Event Detection - SED) من الأدوات الأساسية لفهم الصوت، حيث تُسهم في مجالات متعددة مثل المراقبة، المدن الذكية، الرعاية الصحية، وفهرسة الوسائط المتعددة. ومع ذلك، كانت الأنظمة التقليدية لكشف الأحداث الصوتية تعمل وفق فرضية 'العالم المغلق'، مما يعوق فعاليتها في البيئات الحقيقية التي تتسم بظهور أحداث صوتية جديدة.

مستوحاة من نجاح التعلم في العالم المفتوح (Open World Learning) في مجال رؤية الكمبيوتر، نقدم نموذج كشف الصوت في العالم المفتوح (OW-SED) الذي يتحدى الأنظمة التقليدية. يعمل هذا النموذج على كشف الأحداث المعروفة، وتحديد الأحداث التي لم يتم التعرف عليها، والتعلم منها بشكل تدريجي.

لمواجهة التحديات الفريدة لنموذج OW-SED، مثل الأحداث المتداخلة والغامضة، نقدم بنية قابلة للتشكيل من بعد واحد (1D Deformable Architecture) تستخدم الانتباه القابل للتشكيل للتركيز الديناميكي على المناطق الزمنية البارزة. بالإضافة إلى ذلك، صممنا إطار عمل جديد يُعرف بمحول كشف الأحداث الصوتية القابل للتشكيل في العالم المفتوح (WOOT)، الذي يدمج تفكيك الخصائص لفصل التمثيلات المحددة للفئات عن تلك غير المحددة، إلى جانب استراتيجية مطابقة من واحد إلى كثير وفقدان تنوع لتعزيز تنوع التمثيل.

أظهرت النتائج التجريبية أن طريقتنا تحقق أداءً أفضل بشكل طفيف مقارنةً بالتقنيات الرائدة الحالية في بيئات العالم المغلق، كما تحسن بشكل كبير عن الأساليب الحالية في سيناريوهات العالم المفتوح.

إن هذه التطورات قد تفتح الأبواب لتطبيقات جديدة ومثيرة في مجالات متنوعة، مما يجعلنا نتساءل: كيف يمكن لهذا النموذج تغيير طريقة تفاعلنا مع البيئة المحيطة؟ شاركونا آراءكم في التعليقات!