في ظل التقدم المذهل في تقنيات الذكاء الاصطناعي، يواجه نظام تحديد الهوية المتعدد اللغات (Multimodal Speaker Identification) تحديات كبيرة تتعلق بفقدان الأنماط (modalities) وعدم تطابق اللغات بين بيئات التدريب والاختبار. تتأثر دقة التعرف بالعديد من العوامل مثل الضوضاء في الخلفية وأحاديث المتحدثين المتعددة، وهذا ما يحفز البحث المستمر لتطوير الحلول الفعالة.
للتصدي لهذه التحديات، تم تقديم نظام مبتكر لتحديد الهوية يتكامل مع تقنية Adaptive Modality Routing (AMR). يعتمد هذا النظام الذكي على الجمع بين قنوات إدخال متعددة، حيث يجري تقييم جودة الإدخال بشكل ديناميكي لتكييف المعلومات المستخلصة من عدة مصادر.
يتكون AMR من وحدات معالجة متقدمة تعمل مع نموذج قوي للتشفير الصوتي (W2V-BERT 2.0) ومشفر للوجه مدرب مسبقًا (IResNet-18) لإنتاج تمثيلات مطابقة للأبعاد الخاصة بالشكل المستخدم. يعتمد النظام على Router تدريبي لتقدير أوزان الأنماط الديناميكية التي يتم تطبيقها لتجميع النتائج المستندة إلى الأنماط المختلفة.
وعند تحليل نتائج التجارب على مجموعة بيانات POLY-SIM 2026، حقق النظام دقة مرتفعة حيث سجل 99.93% في التعرف الصوتي المتعدد الأنماط للغة الإنجليزية و100.00% للغة الأردية. وتعتبر دقة النظام التي تبلغ 99.07% عبر جميع البروتوكولات المقدمة قفزة نوعية تتفوق على النماذج السابقة.
هذا الابتكار يمثل خطوة كبيرة نحو تحسين تقنيات الذكاء الاصطناعي في مجالات التعرف على المتحدثين، ما يفتح آفاقًا واسعة لمزيد من التطبيقات العملية.
نظام تحديد الهوية المتعدد اللغات: كيف يتم تشكيل المستقبل مع مسار تحكم تعدد الأنماط؟
تقدم دراسة جديدة نظام تحديد الهوية المتعدد اللغات باستخدام تقنية Adaptive Modality Routing (AMR) لمواجهة التحديات في الظروف الحقيقية. نتائج التجارب تشير إلى دقة التعرف على المتحدث تصل إلى 99.93% في بعض السيناريوهات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
