في عالم الذكاء الاصطناعي، يعتبر تحويل الكلام إلى نص (Automatic Speech Recognition - ASR) إحدى أهم الابتكارات، حيث تمثل FormalASR نقطة تحول جديدة في هذه التكنولوجيا. فبينما كانت الأنظمة التقليدية تتسم غالبًا بتدوين الكلام بطريقة حرفية، مما يؤدي إلى تضمين كلمات ملء وهياكل غير رسمية، جاء FormalASR ليقدم حلاً فعّالاً.
يُعتبر استخدام نموذجين مدمجين (0.6B و1.7B) تقنية بارزة في مجال transcription المباشر للكلام الصيني إلى نصوص رسمية. حيث تم تدريب هذه النماذج على مجموعات بيانات ضخمة تُعرف باسم WenetSpeech-Formal وSpeechio-Formal، والتي تم إعدادها باستخدام تقنيات إعادة الكتابة المعتمدة على نماذج لغوية كبيرة (Large Language Models) والفلترة النوعية.
وبفضل أساليب التحسين المشرف، أثبتت التجارب على مجموعتي البيانات نجاح FormalASR في تقليل معدل الأخطاء النسبية (Character Error Rate - CER) بنسبة تصل إلى 37.4% مقارنة بالنماذج التقليدية. كما أظهرت التحسينات الكبرى في قياسات ROUGE-L وBERTScore، مما يدل على فعالية نموذج النسخ المباشر هذا.
ما يُميز FormalASR هو قدرته على تقديم حلول خفيفة وسهلة الاستخدام، حيث يتجنب الحاجة إلى معالجة إضافية للنموذج اللغوي في وقت النشر، مما يجعله خيارًا مثاليًا للتطبيقات المباشرة على الأجهزة.
باختصار، FormalASR يعد خطوة جديدة ومهمة نحو تسهيل عملية كتابة النصوص الرسمية من الكلام المنطوق، ليس فقط في اللغة الصينية ولكن قد يمتد تأثيره ليشمل لغات أخرى أيضًا. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
⏱ 2 دقائق للقراءة👁 0 مشاهدة
ثورة في تحويل الكلام إلى نص: تعرف على FormalASR لتحويل اللغة الصينية المنطوقة إلى نصوص رسمية!
تقدم FormalASR نموذجًا مبتكرًا لتحويل الكلام الصيني المنطوق مباشرة إلى نصوص رسمية دون الحاجة إلى معالجة إضافية! هذه التقنية تعزز دقة الكتابة وتخفف من التعقيدات التقنية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
