في عالم الذكاء الاصطناعي، تعتبر أنظمة التعرف على الصوت (ASR) مجالًا حيويًا يواجه تحديات كبيرة، خاصة في اللغات ذات الموارد المحدودة. ومن ثم، قدم باحثون تقنية ثورية تقدم الأمل لمعالجة هذه التحديات. تخيلوا أن بإمكانكم توليد محادثات لم تحدث من قبل!

تقوم هذه التقنية الفريدة بإنشاء حوارات افتراضية بمشاركة بيانات تعريفية حول المتحدثين، مما يساعد على إنشاء محادثات مُركبة تأخذ بعين الاعتبار خصائص المتحدثين في تكنولوجيا تحويل النص إلى صوت (TTS). تم استخدام هذه التقنية الحديثة لتوليد مجموعة متنوعة من البيانات التدريبية، مما أدى إلى تعزيز الأداء في المشروعات المتعلقة بالتعرف على الصوت.

في إطار التجارب، تم تقييم خمسة عائلات من نماذج اللغات الضخمة (Large Language Models) باستخدام أنواع مختلفة من الإعدادات، والتي أثبتت نتائج مذهلة. واحدة من النتائج الرئيسية كانت أن النموذج الذي تم تدريبه باستخدام 67 ساعة فقط من المحادثات الحقيقية و636 ساعة من البيانات المُصنعة قدم أداءً أفضل من نموذج تم تدريبه على 2700 ساعة من الصوت الهنغاري دون أي تدريب مسبق.

هذه النتائج تمثل دليلاً قويًا على فعالية البيانات التي يتم توليدها بواسطة نماذج اللغة كأداة فعالة لتحسين التدريب في أنظمة التعرف على الصوت. بفضل هذه التقنية، يمكن أن يفتح أمامنا أفق جديد لتوسيع نطاق استخدام الذكاء الاصطناعي في مختلف اللغات.