تُعتبر ظاهرة "الجروكينج" (Grokking) من المواضيع المثيرة في مجال الذكاء الاصطناعي، حيث تتعلق بتلك اللحظة المفاجئة التي يظهر فيها النموذج قدرة التعميم بعد فترة طويلة من حفظ البيانات التدريبية بدقة. على الرغم من أن هذه الظاهرة قد لوحظت بشكل واسع، إلا أنها كانت تفتقر إلى نظرية كمية تفسر طول مدة التأخير.

في دراسة حديثة، تم تقديم نظرية جديدة تحت عنوان "قانون تأخير فصل القيم" (Norm-Separation Delay Law) والتي تُظهِر أن الجروكينج هو "انتقال تمثيلي مدفوع بالقيم" في ديناميات التدريب المنظم. تم استنتاج القانون الرياضي الذي يوضح العلاقة بين وقت الجروكينج (T_grok) ووقت الحفظ (T_mem) باستخدام المتغيرات الأساسية.

تشير الدراسة إلى أن التأخيرات يمكن أن تتنبأ بفعالية من خلال عامل الانكماش الفعال (γ_eff) للخوارزمية المستخدمة، حيث تم ملاحظة أن خوارزمية "SGD" تعاني من قصور عند نفس المعلمات بينما "AdamW" تظهر أداءً موثوقًا في تحقيق الجروكينج.

هذا البحث يطرح أسئلة جديدة حول كيفية فصل الذاكرة عن الانكماش ويعيد تشكيل فهمنا للجروكينج كتأثير متوقع بدلًا من كونه عرضًا غامضًا من ممارسات تحسين النموذج.

علاوةً على ذلك، تم تطوير خوارزمية قائمة على ثلاث مدخلات تستطيع توقع تأخير الجروكينج بدقة معينة مما يسهم في اتخاذ قرارات مبنية على بيانات للتوقف المبكر في التدريب. فهل سنشهد مستقبلاً يُحدد فيه كيفية تحقيق التعلم بطرق أسرع وأفضل؟