أعزائي القراء، نرحب بكم في عالم جديد من الابتكار التكنولوجي الذي يحقق قفزات نوعية في مجال الذكاء الاصطناعي! نقدم لكم 'بالتي فويز' (BaltiVoice)، وهي قاعدة بيانات صوتية مميزة تضم 16.8 ساعة من تسجيلات الكلام بلغة البلتي، إحدى اللغات التبتية النادرة المستخدمة في منطقة غلغت بالتاريخ بباكستان.

إن 'بالتي فويز' ليست مجرد قاعدة بيانات تقليدية، بل تم تصميمها لتلبية احتياجات متحدثي اللغة البلتي، والتي لم تتوفر لها سابقًا موارد متاحة للعامة في مجال التعرف على الكلام (ASR). تتضمن القاعدة الجديدة 10,060 عبارة موثقة باللغة البلتي مكتوبة بخط النستعليق الأصلي، وهي مستمدة من تسجيلات مشروع Mozilla Common Voice.

وقد جرت عمليات تحسين على النموذج المعروف باسم ''Whisper-small'' من OpenAI، حيث أسفرت هذه العملية عن تحقيق معدل خطأ كلمات (WER) بنسبة 30.07% في مجموعة الاختبار، وهي قفزة كبيرة مقارنة بالأساس المحسوب وقدره 182.18% في وضع عدم التواجد.

يسعدنا أن نعلن أن مجموعة البيانات والنموذج المحسن، فضلاً عن عرض تجريبي مباشر، متاحون الآن على منصة HuggingFace. تابعوا هذا التطور الرائع في اللغة البلتي ولا تفوتوا فرصة المشاركة في تعزيز هذا الإرث الثقافي.

ما رأيكم في هذا التطور؟ هل تعتقد أن مثل هذه المشاريع يمكن أن تحدث فرقًا في الحفاظ على اللغات النادرة؟ شاركونا آرائكم في التعليقات!