تشهد نماذج اللغة الكبيرة (LLMs) نمواً متزايداً في استخدامها لتقييم النصوص التي يتم إنتاجها تلقائياً. ومع ذلك، تركز معظم الدراسات السابقة على اللغة الإنجليزية فقط. ومع تزايد الطلب على تقييم نصوص متعددة اللغات، تبقى مسألة توسيع تطبيقات نماذج LLM في الإعدادات متعددة اللغات، خاصة بالنسبة للغات التي تعاني من نقص الموارد، تحدياً كبيراً.
تسلط هذه الدراسة الضوء على استراتيجيات متعددة لتطوير نماذج LLM متعددة اللغات كأدوات تقييم، مع الأخذ بعين الاعتبار ما إذا كانت البيانات داخل المجال متاحة لتوجيه التدريب أو لا. تشمل المقارنة بين اللغات الإنجليزية، الإسبانية، والباسكية، والتي تمثل لغات ذات موارد عالية، متوسطة، ومنخفضة.
تتناول الدراسة عدة جوانب مثل ترجمة التعليمات، الإشراف أحادي اللغة مقارنةً بتعدد اللغات، وحجم النموذج. تم توسيع مجموعتي البيانات القائمة لتشمل اللغتين الإسبانية والباسكية، مما يوفر فرصة لتقييم فعالية النماذج في بيئات متباينة.
أظهرت النتائج الرئيسية وجود مقايضات مهمة: عندما تتوفر البيانات داخل المجال، يمكن للنماذج الأصغر المدربة أن تحقق أداءً يماثل النماذج الاحتكارية. وفي المقابل، تثبت التقييمات بدون تدريب مسبق مع النماذج الأكبر فعاليتها أكثر في الإعدادات التي تكون فيها البيانات خارج المجال. من ناحية أخرى، لوحظ أن التدريب على بيانات خارج المجال قد يؤثر سلباً على أداء النموذج.
تقدم هذه النتائج توجيهات عملية لبناء خطوط أنابيب لتقييم متعدد اللغات تكون فعالة وموثوقة. يمكن العثور على البيانات والكود الخاص بهذه الدراسات في hitz-zentroa/mJudge.
نحو نماذج لغوية متعددة اللغات موثوقة: دراسة تجريبية حول تقييم النصوص
تستكشف هذه الدراسة الفعالية المحتملة لنماذج اللغة الكبيرة (LLMs) في تقييم النصوص المتعددة اللغات. تتناول التحديات المتعلقة باللغات ذات الموارد المحدودة وتقدم استراتيجيات مبتكرة لتحسين الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
