تعتبر عملية التبديل اللغوي، أي التبديل الطبيعي بين لغتين خلال عبارة واحدة، واحدة من أكثر التحديات التي تواجه [أنظمة](/tag/أنظمة) [التعرف](/tag/التعرف) على [الكلام](/tag/الكلام) ([ASR](/tag/asr)) والتي لم تُدرس بشكل كافٍ. في عالم يعج بالتواصل بين [ثقافات](/tag/ثقافات) متعددة، أصبح من الضروري [تقييم](/tag/تقييم) فعالية هذه الأنظمة في الظروف الحقيقية.
في إطار سعي لتقديم [تقييم](/tag/تقييم) شامل، قمنا بتقييم خمس مزودي [خدمات](/tag/خدمات) [ASR](/tag/asr) تجاريين، مع التركيز على أربعة أزواج من [اللغات](/tag/اللغات): العربية المصرية-الإنجليزية، والعربية السعودية (نجدي/حجازي)-الإنجليزية، والفارسية (فارسي)-الإنجليزية، والألمانية-الإنجليزية. يضم كل [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) 300 [عينة](/tag/عينة) تم اختيارها من خلال منهجية مزدوجة المرحلة، تبدأ بتنقية تعتمد على خمسة [إشارات](/tag/إشارات) هيكلية للتبديل اللغوي، تليها [تقييم](/tag/تقييم) عميق باستخدام [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) مثل [GPT-4o](/tag/gpt-[4o](/tag/4o)) وGemini 1.5 Pro، مما يقلل [تكاليف](/tag/تكاليف) [التقييم](/tag/التقييم) بمعدل يقدر بـ 91% مقارنة بالأساليب التقليدية.
ولتقييم [أداء](/tag/أداء) الأنظمة، استخدمنا معدلات [خطأ](/tag/خطأ) الكلمات (WER) وBERTScore، حيث أظهر BERTScore [موثوقية](/tag/موثوقية) أكبر في [تقييم](/tag/تقييم) الأزواج اللغوية العربية والفارسية، بسبب التباينات في كتابات [الترجمة](/tag/الترجمة) التي قد ت penalize الترجمات السليمة من الناحية المعنوية. ومن بين الأنظمة، حقق نظام [ElevenLabs](/tag/elevenlabs) Scribe v2 أدنى معدل [خطأ](/tag/خطأ) كلمات بشكل عام بلغ 13.2% (13.1% في العربية المصرية) وسجل أعلى نتيجة في BERTScore بمعدل 0.936.
بالإضافة إلى ذلك، أظهر [التحليل](/tag/التحليل) المتدرج للصعوبات وجود فجوات في [الأداء](/tag/الأداء) تم إخفاؤها بواسطة المتوسطات الإجمالية، بينما أكدت إسقاطات [BERT](/tag/bert) على القرب الدلالي بين المرجع والفرضيات على الرغم من الاختلافات السطحية في [الكتابة](/tag/الكتابة).
يُمكن الوصول إلى [مجموعة البيانات](/tag/مجموعة-[البيانات](/tag/البيانات)) المستخدمة في [التقييم](/tag/التقييم) [عبر](/tag/عبر) الرابط: [https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch]. ما رأيكم في أهمية هذا [التقييم](/tag/التقييم) لأنظمة [التعرف](/tag/التعرف) على [الكلام](/tag/الكلام)؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!
تقييم أنظمة التعرف على الكلام التجارية: تحدي التبديل اللغوي بين العربية والفارسية والألمانية
نقدم تقييمًا شاملًا لأنظمة التعرف على الكلام التجارية باستخدام بيانات تتعلق بالتبديل اللغوي بين أربع لغات، مما يكشف عن أداءها الفعلي في ظروف متعددة اللغات. النتائج تظهر تفوق نظام ElevenLabs Scribe v2 في تحقيق أدنى معدل خطأ كلمات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
