تستمر أنظمة التعرف على الكلام (ASR) في الإسهام في توثيق اللقاءات السريرية، ولكن ثقافة التنوع لغويًا وبيئيًا في الهند تستدعي فحص موثوقية هذه الأنظمة. في دراسة جديدة، قام الباحثون بإجراء تدقيق شامل لأداء أنظمة ASR على بيانات مقابلات نفسية حقيقية باللغة الهندية والإنجليزية الكندية، مقارنين ثمانية نماذج متطورة، تشمل:
- **IndicWhisper**
- **WhisperLargeV3**
- **Sarvam**
- **GoogleS2T**
- **Gemma3n**
- **OmniLingual**
- **Vaani**
- **Gemini**
أظهرت النتائج تباينًا كبيرًا في الأداء بين النماذج واللغات، حيث كانت بعض الأنظمة تنافسية في اللغة الإنجليزية الهندية لكنها فشلت في فهم الكلام الإقليمي. وعليه، قام الباحثون بتعديل طريقتين من أفضل النماذج مفتوحة المصدر، وهما Gemma3n وOmniLingual، باستخدام طرق متنوعة.
كشفت النتائج عن وجود ثغرات نظامية مرتبطة بدور المتحدث والجنس، مما يثير قلقًا بشأن العدالة في نشر هذه الأنظمة في البيئات السريرية. ولتعزيز الأداء من جهة، وتقليل الفجوات من جهة أخرى، اقترح الباحثون تقنية **SamaVaani**، وهي أسلوب موحد يهدف إلى تحسين أداء ASR وتعزيز العدالة عبر مجموعات سكانية متنوعة.
إن هذا التطور يعد خطوة مهمة نحو تعزيز استخدام تكنولوجيا ASR في الهند، ما يجعل الرعاية الصحية أفضل للجميع. ماذا برأيكم عن أهمية تحسين الأداء والعدالة في تقنيات التعرف على الكلام؟ شاركونا آرائكم في التعليقات!
SamaVaani: تقنية رائدة لتحسين أداء واستخدام التعرف على الكلام في الهند!
أطلق الباحثون تقنية SamaVaani التي تهدف إلى تعزيز دقة أداء نظم التعرف على الكلام (ASR) في السياقات السريرية الهندية. تسلط نتائج الدراسة الضوء على فجوات الأداء المرتبطة باللغة والجنس، مما يعزز أهمية العدالة في توزيع هذه التكنولوجيا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
