في عالم الذكاء الاصطناعي، يمثل "grokking" تأخر الفهم (Delayed Generalization) الذي تعاني منه نماذج Transformers المدربة على عمليات الجمع الدورية. في دراسة حديثة نشرت على arXiv، تم اعتماد نهج تدخلّي لفحص كيف يمكن للتعديلات الهندسية أن تؤثر على الديناميات التدريبية، مما يتيح تجاوز مراحل الحفظ التقليدية.

تناولت الدراسة تأثير عاملين هيكليين مستقلين في نماذج Transformers القياسية هما: الكمية غير المحدودة للتمثيل وطريقة توجيه الانتباه المعتمدة على البيانات. لتجاوز قيود النموذج التقليدي، تم تقديم "هندسة سطح كروية" (Spherical Topology) تفرض تطبيع L2 على مستوى تيار البقايا ومصفوفة استخراج غير قابلة للتعديل. هذه الابتكارات ساهمت في تقليل زمن بدء الفهم لأكثر من 20 مرة دون الحاجة إلى تقليل الوزن.

ومن خلال تقنية إبطال الانتباه الموحد (Uniform Attention Ablation)، تم تعديل توجيه الاستعلامات والمفاتيح ليصبح توزيعًا موحدًا، مما خفف من تعقيدات طريقة التوجيه المعتمدة على البيانات. على الرغم من التخلص من التوجيه الأمثل، حققت هذه النماذج نسبة فهم كاملة عبر جميع النماذج، متجاوزة تمامًا تأخر الفهم.

للتحقق مما إذا كان هذا التحسين يعكس توافقًا هندسيًا خاصًا بالمهمة بدلاً من كونه مثبِّت تحسيني عام، تم استخدام تركيب التباديل غير القابل للتباديل S5 كتحكم سلبي. أظهرت النتائج أن فرض القيود الكروية على S5 لم يسارع من عملية الفهم، مما يشير إلى أن سبيل تجاوز مرحلة الحفظ يعتمد بشدة على توافق المبادئ المعمارية مع تناغمات المهمة الأساسية.

هذه النتائج تقدم أدلة تدخليّة تدل على أن حرية التصميم المعماري تؤثر بشكل كبير على عملية الفهم، مما يفتح آفاقًا جديدة لفهم كيفية تحسين ديناميات التدريب في الذكاء الاصطناعي.