تعتبر تقنية التعلم الذاتي المُشرف (Self-supervised learning) من أبرز التطورات في مجال الذكاء الاصطناعي، حيث تسمح بإنشاء تمثيلات صوتية قابلة للنقل بين المجالات والمهام المختلفة. في هذا السياق، تم إطلاق نموذج جديد يُعرف باسم BEST-RQ-2، والذي يُعد تطورًا للنموذج السابق BEST-RQ.

تتميز هذه التقنية الجديدة بالاعتماد على منهجية "السياق ثم التنبؤ" (contextualize-then-predict) التي تتكون من خطوتين. في المرحلة الأولى، يتم معالجة المناطق غير المموهة في مخطط التردد باستخدام مُشفّر السياق القائم على نموذج ViT (Vision Transformer)، الذي يسمح بفهم أفضل للسياق العام للصوت. أما في المرحلة الثانية، فيقوم مُتنبئ خفيف الوزن بتخمين الأهداف للمناطق المموهة.

على الرغم من استبدال مُشفّر Conformer الأصلي بنموذج ViT، إلا أن الأداء في مهام الكلام قد شهد انخفاضًا طفيفًا، بينما تحسنت النتائج في مجالات الموسيقى والأصوات البيئية، مما يُبرز أهمية هذا الابتكار في التكيف مع مختلف السيناريوهات الصوتية.

عند اختبار BEST-RQ-2 على معيارين هما X-ARES وXARES-LLM، أظهر النموذج تفوقًا ثابتًا على الأنظمة التقليدية ذات المرحلة الواحدة، مع الحفاظ على مستوى حساب الاستدلال دون تغيير. هذه النتائج تشير إلى إمكانية تحقيق مزيد من الأداء المتميز دون زيادة التعقيد. وللمطورين والباحثين، كود النموذج والنقاط المرجعية متاحة للجمهور، مما يسهل الاستفادة منها في مشروعاتهم المستقبلية.

هل ترون أن هذه التقنية ستحدث فرقًا حقيقيًا في مجالات الصوت المختلفة؟ شاركونا آرائكم في التعليقات!