تسعى تقنيات التعرف على الصوت (ASR) دائماً لتوسيع آفاقها، وكان نموذج Whisper من OpenAI على موعد مع تقدم مثير في مجال فهم اللهجات، وبالتحديد الألمانية السويسرية. في دراسة جديدة، تم استخدام 1,367 ساعة من الكلام المذاع كبيانات مترافقة مع ترجمة بالألمانية القياسية، مما شكل أساساً ضعيفاً للإشراف في عملية التدريب.
على مدى 16 دورة تدريبية متكررة، أجريت التجارب على نظام NVIDIA DGX Spark (Grace Blackwell) المجهز بذاكرة موحدة بحجم 128 غيغابايت، حيث تمت مقارنة أساليب LoRA مع أسلوب التدريب الكامل لنموذج يحتوي على 1.55 مليار معلمة.
نتائج التجارب أظهرت أن النموذج الأفضل حقق مستوى دقة 25.6% على مجموعة اختبارات اللهجات السويسرية، مع تقييم صادق على بيانات منفصلة. وتمت دراسة الأخطاء التي حدثت، حيث أوضحت التحليلات أن نسبة الأخطاء الحقيقية كانت في الواقع أقل بكثير من المقياس المعتمد، حيث بلغ الخطأ الحقيقي 8.5%.
كما أظهرت النتائج أن نماذج ASR المنشورة سابقاً، والتي قدمت نسب خطأ تتراوح بين 17.1 إلى 17.5%، كانت تعاني من تلوث في المعيار، مما يعني أن القياسات السابقة قد تكون مبالغ فيها.
أضف إلى ذلك، تم إصدار نموذجين جديدين، أحدهما يعتمد على LoRA والآخر تم تدريبه بشكل كامل، مما يجعلهما من بين النماذج القليلة المتاحة للجمهور والمقيّمة بموضوعية للألمانية السويسرية.
ومع هذه التطورات، تفتح الأبواب أمام مفهوم جديد لأساليب فهم اللهجات وتقديم خدمات تعتمد على الذكاء الاصطناعي بشكل أكثر دقة وكفاءة.
ما رأيكم في هذا التطور المذهل في تقنيات التعرف على الصوت؟ شاركونا في التعليقات!
ثورة في التعرف على الصوت: Whisper يتحسن لفهم الألمانية السويسرية!
بحث جديد يكشف عن تقدم كبير في أداء نموذج Whisper من OpenAI في التعرف على الصوت بالألمانية السويسرية. النتائج تشير إلى مستوى دقة مذهل، مما يعزز مستقبل تقنية الذكاء الاصطناعي في فهم اللهجات المتنوعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
