في عالم بحوث اللغة للأطفال، تُعد عملية تحويل الكلام إلى نص من أكبر التحديات التي تواجه الباحثين، خاصة في اللغات ذات المصادر الشحيحة. ومع دخول تقنيات التعرف التلقائي على الكلام (ASR) في هذا المجال، ظهر أمل جديد لتقليل الجهد اليدوي وزيادة الدقة في النسخ.

قام فريق من الباحثين بدراسة تأثير نماذج ASR الحديثة على نصوص أطفال هولنديين، حيث قاموا بتقييم تسعة نماذج تندرج ضمن ثلاث عائلات من نماذج التعرف على الكلام، وهي Whisper وParakeet وWav2Vec2. وقد تم استخدام مجموعتين من البيانات: JASMIN وDART.

استناداً إلى السؤال البحثي الأول، تبين أن نموذج Whisper-medium المُعدل يُحقق أداءً ممتازاً حيث سجل معدل الخطأ (WER) 5.54% على بيانات JASMIN و70.37% على بيانات DART، مما يشير إلى أن بيانات DART كانت أكثر تحدياً نظراً لمعدل الضوضاء العالي فيها.

أما بالنسبة للسؤال البحثي الثاني، فقد تم تسليط الضوء على إمكانية اختيار مجموعة فرعية من البيانات ذات النسخ العالية الدقة تلقائياً، دون الحاجة للتحقق اليدوي. من خلال استخدام طريقة اختيار قائمة على مستوى العبارات، توصل الباحثون إلى أن 42% من التعبيرات في JASMIN و18.1% في DART يمكن تحديدها تلقائياً على أنها مكتوبة بدقة عالية، مع دقة تصل إلى 98.3% أو أعلى، مما يقلل الاعتماد على التحقق اليدوي.

هل تتخيل كيف يمكن أن تُحدث هذه التكنولوجيا ثورة في بحوث الأطفال والتفاعل الاجتماعي؟ ما رأيكم في هذه التطورات المذهلة؟ شاركونا في التعليقات.