تشير الأبحاث الحديثة إلى أن نماذج اللغات الكبيرة (Large Language Models) يتم تدريبها بشكل أساسي على مزيج من البيانات، حيث يأتي الجزء الأكبر من هذه البيانات من عمليات جمع المعلومات من الويب، بينما يتم اختيار نسبة صغيرة من مصادر عالية الجودة تحمل معرفة عميقة. إلا أن دراسة جديدة أبرزت أن اكتساب المعرفة عن طريق بيانات كثيفة المعرفة لا يتبع دائمًا قانونا سلسا للنمو، بل يمكن أن يظهر انتقالات مفاجئة تتعلق بنسب المزج وحجم النموذج.

في هذه الدراسة، وُجد أن عند تدريب نماذج اللغات الكبيرة على هذا النوع من البيانات المختلطة، يمكن أن يحدث تحول كبير في كيفية تخزين المعرفة. فعلى سبيل المثال، عند زيادة حجم النموذج إلى نقطة حرجة، يمكن للنموذج أن ينتقل فجأة من تذكر عدد قليل جدًا من السير الذاتية إلى تذكر معظمها. وبالمثل، أظهرت التجارب أنه تحت نسبة مزج حرجة، لا يتذكر النموذج شيئًا تقريبًا حتى بعد تدريب مطول، ولكن بعد تجاوز هذه النسبة، يبدأ في تذكر المزيد من السير الذاتية بسرعة.

تُعزى هذه التحولات المفاجئة إلى ظاهرة تخصيص القدرة، حيث يجب أن يعمل النموذج الذي له قدرة محدودة مثل حل لمشكلة توصيل الأمتعة لتقليل الخسارة العامة في الاختبار. وبالتالي، يمكن أن تتغير التخصيصات المثلى عبر مجموعات البيانات بشكل غير متواصل مع تغير حجم النموذج أو نسبة المزج.

ومن خلال إطار عمل نظري للمعلومات، قدمت الدراسة تنبؤات حول هذه الانتقالات، معتبراً أن النسبة الحرجة للمزج تتبع علاقة قانون القوة مع حجم النموذج. وقد أظهرت النتائج أهمية مزيج البيانات الجيد للنماذج الكبيرة، الذي قد لا يكون الأمثل بالنسبة للنماذج الصغيرة.

إن هذه الاكتشافات توفر رؤية جديدة ومثيرة لعلماء البيانات والمطورين حول كيفية تحسين أداء نماذج الذكاء الاصطناعي وتأثير تنوع البيانات على تكنولوجيا التعلم الآلي.