في عالم الذكاء الاصطناعي، ومع تزايد استخدام نماذج اللغة الكبيرة (LLMs)، أصبح من الضروري إعادة التفكير في كيفية اختيار البيانات بدلاً من التركيز على الكمية. تتطلب النماذج الحديثة الآن تحسين نسبة الإشارة إلى الضوضاء من خلال تصفية البيانات اعتمادًا على الجودة. ومع ذلك، تواجه العديد من اللغات نقصًا في البيانات ذات الجودة العالية اللازمة لتدريب مصنفات الجودة بشكل فعال.

تتناول هذه الدراسة الجديدة فكرة مثيرة للاهتمام وهي أن مؤشرات الجودة في فضاء التضمين قد تظهر اتساقًا عابرًا للغات، مما يمكن اللغات ذات الموارد العالية مثل الفرنسية من دعم تصفية البيانات للغات الأقل موارد. تم تقييم عدة استراتيجيات لتصفية البيانات، تشمل النقل العابر للغات، وعينة الربع الثالث (Q3)، وضبط معدل الاحتفاظ.

أظهرت النتائج أن تجميع البيانات متعدد اللغات يتفوق في كثير من الأحيان على المعايير الأحادية اللغة من ناحية استقرار الترتيب والدقة العامة، حيث تم تدريب نموذج على 1 مليار رمز (token) باستخدام 103 مليار رمز، مما حقق زيادة بنسبة 1.2% في الدقة الطبيعية المجمعة للغة الفرنسية، متجاوزًا المعايير الأحادية اللغة للغات ذات الموارد المنخفضة.

ومع ذلك، تم العثور على أن الحجم بمفرده لا يضمن الاستقرار، وظهر أنه بالنسبة للغات عالية الموارد مثل الفرنسية، من الضروري تحسين حدود القرار من خلال عينة الربع الثالث أو ضبط معدل الاحتفاظ للاستفادة بشكل كامل من الإشارات متعددة اللغات. هذه النتائج تمثل خطوة كبيرة نحو تحسين التصنيف متعدد اللغات وتعزيز فعالية نماذج اللغة في بيئات متعددة.