تعتبر جودة البيانات أحد العوامل الأساسية في فعالية نماذج التعلم الآلي، خاصة عندما يتعلق الأمر بتعليم نماذج اللغة الكبيرة (Large Language Models). فالأخطاء في التصنيفات، حتى تلك الموجودة في المعايير الشائعة، يمكن أن تدخل ضوضاء في البيانات التدريبية وتقلل من قدرة النموذج على التعميم.

في دراسة حديثة، تمت مقارنة طريقتين من أساليب الكشف عن الأخطاء، وهما تعلم واثق (Confident Learning) ورسم خرائط مجموعة البيانات (Dataset Cartography)، وذلك على ثلاثة مجموعات نصية روسية تختبر التصنيف العاطفي والقبول اللغوي. استخدم الباحثون نموذج روبيرت (rubert-base-cased) المدرب مسبقًا والذي تمت تحسينه على كل مجموعة.

لتقييم فعالية عمليات التصفية، أُجريت تجارب شاملة مع إزالة عشوائية لعدد مكافئ من الأمثلة. أظهرت النتائج أن فعالية الأساليب تعتمد بشكل كبير على خصائص مجموعة البيانات. ففي المجموعات الكبيرة ذات مستويات الضوضاء المنخفضة، لم تؤثر عمليات التصفية على الأداء، بينما في مجموعات البيانات الصغيرة عالية الضوضاء، أدت أساليب التعلم الواثق إلى تحسينات ملحوظة في الأداء.

تتصف أسلوب رسم خرائط مجموعة البيانات بسلوك أكثر تحفظًا، حيث يقوم بإزالة عدد أقل من الأمثلة. ولكن على العموم، أظهرت طرق الإزالة المستهدفة بواسطة كلا الطريقتين تفوقًا على الإزالة العشوائية، مما يؤكد أهمية الطرق المستخدمة في تحسين جودة البيانات.