في عالم الذكاء الاصطناعي، تتزايد أهمية نماذج اللغات الضخمة (Large Language Models) بفضل قدرتها على معالجة النصوص بفعالية. أحدث الأبحاث في هذا المجال تركز على استخراج العلاقات (Relation Extraction) بين الكيانات للغات ذات الموارد المحدودة، مثل اللغة الرومانية.

تواجه اللغات التي تفتقر إلى مجموعات بيانات مشروحة تحديات كبيرة في إجراء تحليل دقيق. لكن من خلال دمج الترجمة الآلية باستخدام نماذج اللغات الضخمة، يمكن استكشاف الآفاق الجديدة لاستخراج العلاقات. في دراسة جديدة، تم ترجمة مجموعة بيانات SemEval-2010 Task 8 من الإنجليزية إلى الرومانية باستخدام خط أنابيب الترجمة القائم على نماذج اللغات الضخمة.

تم تقييم النموذج الشهير Gemma 4 31B تحت ثلاثة سيناريوهات: الصدمة المعدومة، القليلة، وتهيئة QLoRA. أثبتت النتائج أن اللغة الرومانية تتعرض لانخفاض قدره 3 إلى 5 نقاط مئوية مقارنةً بالإنجليزية في الإعدادات التي تعتمد على التعليمات فقط، بينما يوفر استخدام أسلوب القليل من الصدمات مكاسب بسيطة مقارنة بالصدمات المعدومة.

من المثير للاهتمام أن التهيئة باستخدام QLoRA حسنت من الأداء بشكل كبير، حيث زادت من نسبة F1-Score بأكثر من 22 نقطة في كلا اللغتين، مما يقلل الفجوة العابرة للغات من 3.3 إلى 1.4 نقطة مئوية. لاقت نماذج التشفير البديلة، رغم صغر حجمها (125M إلى 560M معاملًا)، أداءً مقاربًا لجموية QLoRA في اللغة الرومانية.

هذه النتائج تدل على أنه قد تكون الفائدة من استخدام نموذج كبير بحجم 31B لاستخراج العلاقات في الرومانية ضعيفة في السيناريوهات التي تتطلب حسابات معقدة. قامت الدراسة بالإفراج عن مجموعة البيانات المترجمة، والبرمجيات اللازمة للتقييم، والنماذج المدربة، مما يفتح المجال للبحوث المستقبلية في هذا المجال.