في الآونة الأخيرة، ومع ظهور نماذج اللغة الكبيرة (LLMs) وتحولها إلى البديل الرئيسي لمحولات التعرف على الصوت، أثار ذلك تساؤلات جوهرية حول مدى عدالة هذه النماذج في التعرف على الكلام، وهل تعزز العدالة بين المجموعات السكانية المختلفة؟

تستعرض دراسة جديدة، تعتمد على تقييم تسعة نماذج تتضمن ثلاثة أجيال معمارية، تأثير هذه النماذج على 43,000 مقطع صوتي عبر خمسة محاور ديموغرافية مختلفة: العرق، اللهجة، الجنس، العمر، واللغة الأم. باستخدام مجموعة بيانات Common Voice 24 ومجموعة بيانات مأخوذة من Meta تُسمى Fair-Speech، توصلت الدراسة إلى مجموعة من النتائج المثيرة التي تتحدى العديد من الافتراضات السابقة.

في أولى النتائج، اتضح أن نماذج LLM لا تعزز الانحياز العرقي، حيث كانت أفضل نماذج الأداء (Granite-8B) أكثر عدالة بما يتعلق بالعرق، مسجلةً نسبة خطأ أقل. على الجانب الآخر، أظهرت نموذج Whisper والمحملة على الكلام الهندي وجود انزياح غير منطقي في معدل الإدراج.

ومع تقييم التأثيرات الناتجة عن الظروف الصوتية المختلفة، أظهرت النتائج أن التغذية الصوتية الضعيفة قد تقلل من فجوات العدالة، إذ تقترب كافة المجموعات من مستويات خطأ مرتفعة. ولكن، زيادة الضجيج تسببت في تفاقم الانحياز في نموذج Whisper، ما يبرز أهمية تصميم المحولات الصوتية بدلاً من الاعتماد فقط على حجم نموذج اللغة لتحقيق الدقة والعدالة في التعرف على الصوت.

إن هذه النتائج تجعلنا نتساءل حول كيفية تحسين النماذج لتكون أكثر إنصافاً، مما يفتح الأبواب لمزيد من الأبحاث والتطوير في هذا المجال الحساس.