في عالم التصنيف الصوتي، يبرز الإطار المتعدد الفروع كحل مبتكر لتصنيف الأصوات المتنوعة. من خلال المشاركة في تحدي DCASE 2026، صمم الباحثون نظامًا فريدًا يهدف إلى تصنيف التسجيلات الصوتية وفق تصنيف الصوت الواسع (Broad Sound Taxonomy - BST).

يتطلب هذا التحدي دقة في التنبؤ على المستوى الثانوي، بالإضافة إلى التوافق مع التصنيف على المستوى الأعلى. اعتمد النظام على تمثيلات النصوص والصوت المبنية على تقنية CLAP، والتي مزجت بين التوجيهات النصية والصوتية لتقديم أداء متميز.

من بين الاستراتيجيات الثلاث التي أدت إلى تعزيز نظام التصنيف، نجد توسيع مجموعة التدريب باستخدام مجموعة مختارة من BSD35k، وتعزيز نمذجة الصوت عبر فروع مخصصة، وتحسين التنبؤات باستخدام مصنفات مدركة للهيكلية وتقنيات المعالجة اللاحقة مثل KNN.

في تحليل متميز، أظهرت ميزة log-STFT أفضل أداء كنموذج فردي، حيث حقق النظام أحسن نتيجة وفقًا لنظام درجات Hierarchical F1، حيث سجلت النتيجة 80.84% على مجموعة BSD10k-v1.2.

ولتحقيق أداء أعلى، تم بناء أنظمة تجميعية من خلال دمج نماذج تتميز بخصائص صوتية مكملة، حيث تم الحصول على درجات F1 Hierarchical تصل حتى 81.25% و81.18% على التوالي. يُظهر هذا العمل كيف أن الابتكار في تقنيات التصنيف يمكن أن يحدث ثورة في فهمنا واستخدامنا للتسجيلات الصوتية، مما يمهد الطريق لتطبيقات جديدة ورائعة في مجالات متعددة.