في خطوة غير مسبوقة، تم الكشف عن نموذج WARDEN، وهو نظام متطور يهدف إلى إنقاذ لغة واردامان، وهي واحدة من اللغات الأصلية المهددة بالانقراض في أستراليا. التحدي الرئيسي أمام الباحثين كان نقص بيانات التدريب الكبيرة، حيث أن كل ما لديهم هو 6 ساعات فقط من التسجيلات الصوتية المشروحة.
عادةً، يعتمد تدريب النماذج على مجموعات بيانات ضخمة مثلما يحدث مع ترجمة اللغات الأوروبية، لكن هذا ليس ممكنًا في حالة واردامان. لذلك، تم تصميم WARDEN ليعمل بنموذجين منفصلين: الأول لتحويل المدخلات الصوتية إلى تدوين صوتي، والثاني لترجمة هذا التدوين إلى الإنجليزية.
استراتيجيات مبتكرة تم استخدامها لتعزيز أداء WARDEN. ففي مرحلة التدوين، تم بدء تدريب نموذج واردامان باستخدام بيانات من اللغة السوندانية، التي تشارك بعض الخصائص الصوتية مع واردامان، مما ساعد على تسريع عملية التدريب. أما في مرحلة الترجمة، فقد تم إعداد معجم خاص يربط بين واردامان والإنجليزية، مستندًا إلى تعليقات خبراء، ليتم تزويد هذا العلم إلى نموذج لغة كبير (LLM) ليقوم بتحليل البيانات وتقديم الترجمة النهائية.
أظهرت الاختبارات أن هذا التصميم ذي المرحلتين أفضل بكثير من الحلول الموحدة التي تحتاج إلى كمية ضخمة من البيانات، حتى في ظروف توفر البيانات القليل. وباستخدام بيانات بسيطة لا تتجاوز 6 ساعات، حقق WARDEN نتائج تفوق حتى نماذج أكبر وأفتح مصادر، مما يضعه كمعيار قوي في هذا المجال.
المعلومات والشفرة المتعلقة بالمشروع متاحة للجميع، مما يفتح آفاق جديدة لباحثي الذكاء الاصطناعي في مجال اللغات المهددة بالانقراض.
ما رأيكم في هذه المبادرة الرائعة لحفظ التراث اللغوي؟ شاركونا في التعليقات.
WARDEN: إنقاذ لغة واردامان الهندية الأصلية بتقنيات حديثة وتدريب قليل!
تقدم WARDEN نموذجًا ثوريًا قادرًا على تحويل وتدوين اللغة الأصلية واردامان، باستخدام ست ساعات فقط من بيانات التدريب. إن هذا الابتكار يمثل خطوة مهمة نحو الحفاظ على اللغات المهددة بالانقراض.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
