تواجه عملية تدريب الشبكات العصبية العميقة تحديات فريدة، إذ غالبًا ما تُظهر هندسة فقدٍ غير متساوية، حيث تتواجد بعض الاتجاهات الحادة المهيمنة بالتزامن مع مجموعة كبيرة من الاتجاهات الأكثر انبساطًا. تميل التدرجات إلى الاستقامه مع هذه الاتجاهات الحادة، على الرغم من أن التقدم المستقر يتطلب غالبًا التحرك عبر الاتجاهات الأكثر انبساطًا. هنا تأتي أهمية تقدير الفضاء الفرعي المهيمن الذي يُعتبر سواء مفيدًا أو مكلفًا باستخدام طرق مباشرة تستند إلى المصفوفات الهيسينية (Hessian). في دراستنا الحديثة، أظهرنا أن استخدام خوارزمية النزول المحلي (Local SGD) يمكن أن يكشف عن هذه الهندسة عبر اختلافات العاملين.

من خلال التحليل النظري، تمكنا من إثبات أن الفجوة بين المتوسطات الناتجة عن العاملين تتأثر بشدة بالضوضاء الناتجة عن التدرجات العشوائية والحدبة المصفوفية. وهذا ما يجعل تلك الفجوات تعكس اختلافًا على طول الاتجاهات الحادة الحساسة للحدبة. لذا، فإن فجوات متوسطي العاملين توفر تقديرًا رخيصًا وخالٍ من المصفوفات الهايسينية للفضاء الفرعي المهيمن.

تجاربنا على الشبكات متعددة الطبقات (MLPs) والشبكات العصبية التلافيفية (CNNs) ونماذج المحولات (Transformers) أظهرت أن المساحات الفرعية المتكونة من تلك الفجوات تمثل جزءًا كبيرًا من مكونات التدرج الموجودة في فضاء القيم الذاتية المهيمنة.

إن فهم هذه العلاقات يمكن أن يساعد في تطوير خوارزميات تدريب أكثر فاعلية، مما يسهل تقدم المجال نحو مزيد من الابتكارات في الذكاء الاصطناعي.