في العمق المعقد لعالم الذكاء الاصطناعي، تكشف ظاهرة Grokking عن أسرار مثيرة حول التعلم في الشبكات العصبية. تشير بعض الأبحاث إلى أن هذه الظاهرة تجسد تخزين المعلومات وبعد ذلك عملاً عقلياً غير متوقع، حيث يحدث التعلم الجيد فقط بعد فترة طويلة من حفظ المعطيات.

تعد هذه الدراسة الأخيرة خطوة هامة نحو فهم الديناميكيات الكامنة وراء Grokking. حيث تربط الأبحاث السابقة بين التعلم المتأخر وهذه الظاهرة، مبينة أن الأمر مرتبط بتقنيات تحسين الوزن، وخصوصًا عمليات تناقص الوزن (Weight Decay). ومع ذلك، كان من الصعب تحديد الديناميكيات الدقيقة لهذه الآلية.

تستند الدراسة الحالية إلى فكرة التحسين المقيد (Constrained Optimization)، حيث تظهر أن تقنيات الانحدار التدريجي (Gradient Descent) تقلل بشكل فعال معايير الوزن على ما يعرف باسم زهرة فقدان الصفر (Zero-Loss Manifold). وهذا ما أثبته الباحثون في نتائجهم، حيث أثبتوا رسميًا تلك النقطة عند استخدام معدلات تعلم (Learning Rates) ومعاملات تناقص وزن (Weight Decay) صغيرة للغاية.

وبجانب ذلك، قدمت الدراسة تقريباً يتيح فصل الديناميكيات التعلم لمجموعة معينة من المعلمات عن بقية الشبكة. وهو ما أتاح للباحثين الحصول على تعبير مغلق للديناميكيات ما بعد الحفظ لأولى طبقات الشبكة في شبكة ذات طبقتين.

النتائج التجريبية تؤكد أن المحاكاة البدائية لعملية التدريب باستخدام التدرجات المتوقعة تعيد إنتاج كل من التعلم المتأخر وخصائص التعلم التمثيلي التي تمثل جوهر Grokking. هذه الاستنتاجات تدعو للتفكير في كيفية تطوير نماذج تعلم ذكاء اصطناعي أكثر فعالية.

هل انبهرت مثلنا بهذا الاكتشاف العلمي حول Grokking؟ شاركونا آراءكم في التعليقات!