تُعد نماذج التعرف على الصوت الحديثة المدربة مسبقاً (Pretrained Self-Supervised Speech Recognition Models) من أبرز التطورات في مجال الذكاء الاصطناعي، حيث يتم تدريبها على مجموعة هائلة من البيانات الصوتية بهدف تحويل الكلام إلى تمثيلات سياقية دقيقة. ولكن، تكمن المشكلة في أن هذه النماذج تعتمد بشكل كبير على البيانات اللغوية عالية الموارد، مما يثير مخاوف بشأن تمثيل الأصوات النادرة، مثل أصوات نقاط النقر (Click Consonants) التي توجد أساساً في لغات كوايسان.
تدور أسئلة البحث حول ما إذا كانت هذه النماذج قادرة على التعرف على أصوات نقاط النقر بدقة مماثلة للأصوات الأخرى. وللإجابة على هذا السؤال، تم تحسين نماذج معينة مثل Wav2Vec2 و HuBERT، لتقويم أدائها على بيانات من لغتين غنيتين بصوتيات النقطة (G|ui و West !Xoon).
تظهر النتائج أن النماذج المحسنة تتعرف على أصوات النقطة بدقة أعلى مقارنة بالأصوات غير النقطة، مما يشير إلى أن تعليم الذات (Self-Supervision) يعزز القدرة على تعميم التعرف على أصوات اللغة البشرية، بما في ذلك الأصوات النادرة. وبالتالي، يُعتبر هذا الاكتشاف خطوة نحو تعزيز أداء الذكاء الاصطناعي في التعامل مع لغات وثقافات متنوعة، مما يمهد الطريق لمزيد من التقدم في تقنيات التعرف على الصوت وتوسيع نطاق استخدامها عالمياً.
هل تستطيع نماذج التعرف على الصوت تجاوز الحدود؟ اكتشفوا قدرتها على فهم الأصوات غير المرئية!
تظهر الأبحاث الحديثة أن نماذج التعرف على الصوت المدربة مسبقاً يمكنها التعرف على الأصوات النادرة. هل تتمكن هذه النماذج من فهم أصوات نقاط النقر الموجودة في لغات كوايسان؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
