تعتبر عملية التبديل اللغوي، أي التبديل الطبيعي بين لغتين خلال عبارة واحدة، واحدة من أكثر التحديات التي تواجه أنظمة التعرف على الكلام (ASR) والتي لم تُدرس بشكل كافٍ. في عالم يعج بالتواصل بين ثقافات متعددة، أصبح من الضروري تقييم فعالية هذه الأنظمة في الظروف الحقيقية.
في إطار سعي لتقديم تقييم شامل، قمنا بتقييم خمس مزودي خدمات ASR تجاريين، مع التركيز على أربعة أزواج من اللغات: العربية المصرية-الإنجليزية، والعربية السعودية (نجدي/حجازي)-الإنجليزية، والفارسية (فارسي)-الإنجليزية، والألمانية-الإنجليزية. يضم كل مجموعة بيانات 300 عينة تم اختيارها من خلال منهجية مزدوجة المرحلة، تبدأ بتنقية تعتمد على خمسة إشارات هيكلية للتبديل اللغوي، تليها تقييم عميق باستخدام نماذج الذكاء الاصطناعي مثل GPT-4o وGemini 1.5 Pro، مما يقلل تكاليف التقييم بمعدل يقدر بـ 91% مقارنة بالأساليب التقليدية.
ولتقييم أداء الأنظمة، استخدمنا معدلات خطأ الكلمات (WER) وBERTScore، حيث أظهر BERTScore موثوقية أكبر في تقييم الأزواج اللغوية العربية والفارسية، بسبب التباينات في كتابات الترجمة التي قد ت penalize الترجمات السليمة من الناحية المعنوية. ومن بين الأنظمة، حقق نظام ElevenLabs Scribe v2 أدنى معدل خطأ كلمات بشكل عام بلغ 13.2% (13.1% في العربية المصرية) وسجل أعلى نتيجة في BERTScore بمعدل 0.936.
بالإضافة إلى ذلك، أظهر التحليل المتدرج للصعوبات وجود فجوات في الأداء تم إخفاؤها بواسطة المتوسطات الإجمالية، بينما أكدت إسقاطات BERT على القرب الدلالي بين المرجع والفرضيات على الرغم من الاختلافات السطحية في الكتابة.
يُمكن الوصول إلى مجموعة البيانات المستخدمة في التقييم عبر الرابط: [https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch]. ما رأيكم في أهمية هذا التقييم لأنظمة التعرف على الكلام؟ شاركونا آرائكم في التعليقات!