في السنوات الأخيرة، شهدنا طفرة في تطوير نماذج اللغة المسبقة التدريب (Pre-trained Language Models) التي أثبتت قدرتها على تجاوز الحواجز اللغوية ونقل المعرفة بين لغات مختلفة. لكن ومع ذلك، فإن هذه التقدمات قد أغفلت بشكل كبير اللغات ذات الموارد المنخفضة جدًا، مما يُحدث فجوة ملحوظة في المشهد اللغوي المتعدد.

هذا البحث يتناول هذه الفجوة من خلال تقديم أربعة نماذج لغوية مصممة خصيصًا لمحاكاة اللغات الأنغولية، باستخدام منهجية التعلم المتعددة اللغات المعروفة باسم الضبط الدقيق المتكيف (Multilingual Adaptive Fine-tuning أو MAFT).

كما يستعرض البحث الدور الحيوي لاستخدام بيانات اصطناعية (Synthetic Data) وتخصيص التهيئة المستندة إلى المعرفة في تحسين أداء نماذج MAFT في المهام التطبيقية.

النتائج تشير إلى تحسينات بارزة في الأداء مقارنةً بالنماذج الأخرى، حيث حققنا تقدماً بنسبة 12.3 نقطة مقارنةً بالمواضيع الحالية للنموذج AfroXLMR-base المطور من خلال MAFT، و3.8 نقطة إضافية على نموذح OFA الذي يعد تهيئة فعالة لبيانات النمذجة.

هذا البحث يلقي الضوء على أهمية تكثيف الجهود نحو تعزيز اللغات القليلة الموارد ويمثل نقطة انطلاق لمشاريع مستقبلية تهدف إلى دمج تلك اللغات في الفضاء الرقمي.