تسعى تقنيات التعرف على الصوت (ASR) دائماً لتوسيع آفاقها، وكان نموذج Whisper من OpenAI على موعد مع تقدم مثير في مجال فهم اللهجات، وبالتحديد الألمانية السويسرية. في دراسة جديدة، تم استخدام 1,367 ساعة من الكلام المذاع كبيانات مترافقة مع ترجمة بالألمانية القياسية، مما شكل أساساً ضعيفاً للإشراف في عملية التدريب.

على مدى 16 دورة تدريبية متكررة، أجريت التجارب على نظام NVIDIA DGX Spark (Grace Blackwell) المجهز بذاكرة موحدة بحجم 128 غيغابايت، حيث تمت مقارنة أساليب LoRA مع أسلوب التدريب الكامل لنموذج يحتوي على 1.55 مليار معلمة.

نتائج التجارب أظهرت أن النموذج الأفضل حقق مستوى دقة 25.6% على مجموعة اختبارات اللهجات السويسرية، مع تقييم صادق على بيانات منفصلة. وتمت دراسة الأخطاء التي حدثت، حيث أوضحت التحليلات أن نسبة الأخطاء الحقيقية كانت في الواقع أقل بكثير من المقياس المعتمد، حيث بلغ الخطأ الحقيقي 8.5%.

كما أظهرت النتائج أن نماذج ASR المنشورة سابقاً، والتي قدمت نسب خطأ تتراوح بين 17.1 إلى 17.5%، كانت تعاني من تلوث في المعيار، مما يعني أن القياسات السابقة قد تكون مبالغ فيها.

أضف إلى ذلك، تم إصدار نموذجين جديدين، أحدهما يعتمد على LoRA والآخر تم تدريبه بشكل كامل، مما يجعلهما من بين النماذج القليلة المتاحة للجمهور والمقيّمة بموضوعية للألمانية السويسرية.

ومع هذه التطورات، تفتح الأبواب أمام مفهوم جديد لأساليب فهم اللهجات وتقديم خدمات تعتمد على الذكاء الاصطناعي بشكل أكثر دقة وكفاءة.

ما رأيكم في هذا التطور المذهل في تقنيات التعرف على الصوت؟ شاركونا في التعليقات!