في عالم التكنولوجيا الحديثة، يشكل تطوير نماذج اللغة عنصرًا حاسمًا في تحسين التفاعل بين الإنسان والآلة. ومع ذلك، كانت اللغة الفارسية تعاني من نقص حاد في الموارد المتاحة لعمليات تحويل النص إلى كلام (TTS) ونمذجة الكلام، مما يعيق تطور هذه التقنيات. ولكن انطلاقًا من هذا الواقع، تم تقديم بارس فويس (ParsVoice)، والذي يُعتبر أكبر مجموعة بيانات صوتية نصية متاحة للعامة باللغة الفارسية، مخصص لتدريب أنظمة تحويل النص إلى كلام متعددة المتحدثين.
تضم بارس فويس مجموعة بيانات متكاملة تتكون من 2,200 ساعة من الصوت الجاهز للتحويل، مع 1.36 مليون مقطع متمايز من 1,815 معرفٍ تلقائي للمتحدثين. يُعتبر هذا المشروع أكثر من 25 مرة أكبر من أكبر مجموعة بيانات سابقة متوفرة للغة الفارسية.
تسعى بارس فويس إلى تحسين جودة البيانات الصوتية من خلال خط أنابيب متطور يجمع بين معالج تصنيف جمل بارس بارت (ParsBERT) وتعزيز الحدود المعتمدة على التعرف الصوتي (ASR) واستعادة علامات الترقيم، بالإضافة إلى تحديد المتحدثين وتقييم الجودة من زوايا متعددة. قد أظهرت التجارب أن نموذج XTTS, الذي يعمل بشكل مباشر على نصوص اللغة الفارسية بدون الحاجة إلى تمثيلات فونيمية، حقق تقييمات عالية في جودة الصوت وتوافق المتحدثين.
تُعد بارس فويس خطوة هامة نحو تعزيز قابلية استخدام اللغة الفارسية في تقنيات الذكاء الاصطناعي، وتفتح آفاقًا جديدة في البحث والتطوير. يمكنك استكشاف مجموعة البيانات المتاحة عبر الرابط التالي: رابط.
ما رأيكم في هذا الإبداع التقني؟ هل تعتقدون أن هذا سيساعد في تحسين تفاعلنا مع التكنولوجيا باللغة الفارسية؟ شاركونا آرائكم في التعليقات!
بارس فويس: ثورة جديدة في معالجة اللغة الفارسية عبر نصوص صوتية متعددة المتحدثين!
تم إطلاق بارس فويس، وهو أكبر مجموعة بيانات صوتية نصية باللغة الفارسية، مما يعزز تقدم تقنيات تحويل النص إلى كلام. يتيح هذا الابتكار لمطوري الأنظمة تحسين نموذج الصوت الفارسي بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
