أصدر الباحثون مؤخرًا دراسة مثيرة على منصة arXiv، تتناول سؤالًا محوريًا في علم الذكاء الاصطناعي: لماذا تقوم الشبكات العصبية بتذكر بيانات التدريب قبل أن تتمكن من تعميم المفاهيم بشكل فعّال؟

توصل الفريق إلى نتيجة مثيرة تُظهِر أن تأخير عملية التعميم مرتبط بتضخم شعاعي للتمثيلات المخفية خلال تحسين دالة الخسارة (cross-entropy optimization). هذا التأثير يعيق الشبكات العصبية من اكتشاف الدوائر الهيكلية ذات الأبعاد المنخفضة التي تحتاجها التعميم.

قدّم الباحثون تحليلًا هندسيًا يعكس ديناميكيات الفضاء النشطي، محصورًا في ثلاث فرضيات قابلة للاختبار:
1. فرض قيود على التضخم الشعاعي يُؤدي إلى تنظيم الوزن بشكل غير متساوي يعتمد على بيانات التدريب.
2. هذا التنظيم يُخفّض الطاقة التدريجية الشعاعية عن المستوى العشوائي، مما يُجبر التحديثات على أن تكون زويا بشكل رئيسي.
3. يوجه هذا الاتجاه التحديثات نحو نقاط انهيار أقل حدة، مما يُسهل عملية التعميم.

للتحقق من صحة هذه الفرضيات، قام الفريق بدراسة تأثير تطبيق عقوبة معينة على نماذج متعددة الطبقات (MLPs) ونموذج Transformer. وجدو أن استخدام عقوبة التنظيم لهذه التمثيلات يُسّرع الأداء حتى 6 مرات، كما يُقلل من خطوات التدريب لنموذج nanoGPT المكون من 10 ملايين معلمة في عملية جمع ثلاثة أرقام.

هذه الدراسة تحتج على أهمية الفهم العميق لديناميكيات الشبكات العصبية وكيفية تحسين عمليات التعلّم من خلال تطبيق أساليب هندسية مبتكرة. إن النتائج تشير إلى أفق جديد لإمكانيات الذكاء الاصطناعي، فإلى أين ستكون الخطوة التالية؟