تعتبر البيانات عالية الجودة عنصراً حاسماً في تدريب نماذج اللغات الضخمة (Large Language Models) ، لكنها نادرة في كثير من الأحيان، مما يدعو إلى استراتيجيات فعالة لاستخدامها. في هذا الإطار، يتم تسليط الضوء على أهمية تقدير جودة البيانات ودمجها مع ديناميات التدريب.

اقترحت دراسات حديثة توسيع القوانين المتعلقة بالقياس الوظيفي (Functional Scaling Laws) من خلال إدراج بُعد جودة البيانات، مما يساهم في حل مشكلة جدولة بيانات الجودة وحجم الدفعة في شكل مغلق توافقي. تكشف هذه الحلول عن نظامين ودوراً مزدوجاً للبيانات عالية الجودة.

في النظام الذي يقتصر على الضوضاء، يجب استخدام البيانات عالية الجودة كم amplificador للإشارة، حيث يساهم تقليل حجم الدفعة في تحويل البيانات النظيفة إلى إشارة أقوى دون تعزيز الضوضاء. بينما في النظام الذي يقتصر على الإشارة، ينبغي استخدامها كوسيلة لتقليل الضوضاء، حيث يمكن أن يساعد تأخر إدخال البيانات في تقليل الضوضاء النهائية دون التضحية بتجميع الإشارة.

تستغل الأنظمة الحالية، مثل عمليات التعليم القائمة على المناهج، الدور الثاني بوضع البيانات النظيفة في وقت متأخر، لكنها تفوت الدور الأول، حيث تؤدي الجداول الزمنية التقليدية إلى تقليل شدة التحديث في الوقت الذي تصبح فيه البيانات عالية الجودة متاحة.

استناداً إلى هذه الاكتشافات، تم اقتراح استراتيجية جديدة تدعى Drop-Stable-Rampup، والتي تعتمد على التحول في الجودة خلال منتصف التدريب، حيث يتم تقليل حجم الدفعة، ثم تثبيته لجمع الإشارة، ثم زيادته لتقليل الضوضاء النهائية. في اختبارات على نموذج مكون من 15 مليار معلمات وتم تدريبه على 108 مليار رمز، أثبتت Drop-Stable-Rampup قدرتها على تحسين الدقة بمعدل +1.70 مقارنة بأسلوب Warmup-Stable-Decay (+1.70) و +2.98 بالمقارنة مع أسلوب Cosine-decay، مع تحقيق إنجازات كبيرة في تحديات التفكير الرياضي مثل GSM8K (+4.23) وMATH (+2.80).