في السنوات الأخيرة، شهدنا طفرة في تطوير نماذج اللغة المسبقة التدريب (Pre-trained Language Models) التي أثبتت قدرتها على تجاوز الحواجز اللغوية ونقل المعرفة بين لغات مختلفة. لكن ومع ذلك، فإن هذه التقدمات قد أغفلت بشكل كبير اللغات ذات الموارد المنخفضة جدًا، مما يُحدث فجوة ملحوظة في المشهد اللغوي المتعدد.
هذا البحث يتناول هذه الفجوة من خلال تقديم أربعة نماذج لغوية مصممة خصيصًا لمحاكاة اللغات الأنغولية، باستخدام منهجية التعلم المتعددة اللغات المعروفة باسم الضبط الدقيق المتكيف (Multilingual Adaptive Fine-tuning أو MAFT).
كما يستعرض البحث الدور الحيوي لاستخدام بيانات اصطناعية (Synthetic Data) وتخصيص التهيئة المستندة إلى المعرفة في تحسين أداء نماذج MAFT في المهام التطبيقية.
النتائج تشير إلى تحسينات بارزة في الأداء مقارنةً بالنماذج الأخرى، حيث حققنا تقدماً بنسبة 12.3 نقطة مقارنةً بالمواضيع الحالية للنموذج AfroXLMR-base المطور من خلال MAFT، و3.8 نقطة إضافية على نموذح OFA الذي يعد تهيئة فعالة لبيانات النمذجة.
هذا البحث يلقي الضوء على أهمية تكثيف الجهود نحو تعزيز اللغات القليلة الموارد ويمثل نقطة انطلاق لمشاريع مستقبلية تهدف إلى دمج تلك اللغات في الفضاء الرقمي.
ابتكار نموذج لغوي مخصص: كيف تسهم البيانات الاصطناعية في تعزيز لغات أنغولا!
تقدمت الأبحاث في تطوير نماذج لغوية مخصصة لتعزيز اللغات قليلة الموارد في أنغولا، مستخدمة منهجية متميزة في التعلم المتعدد اللغات. النتائج تشير إلى تحسينات ملحوظة في الأداء، مما يمهد لمستقبل مشرق لتلك اللغات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
