في عالم التعلم الآلي، أصبحت نماذج التحويل (Transformers) العمود الفقري للتطبيقات المبتكرة، ومع ذلك، كان الفهم النظري لديناميات تدريبها محدودًا نوعًا ما. قدّمت دراسة جديدة إطارًا رياضيًا صارمًا لتحليل التدريب القائم على التدرج في نماذج التحويل ضمن نمط المجال المتوسط (mean-field regime)، حيث يميل كل من العمق (عدد الطبقات) والعرض (عدد رؤوس الانتباه) إلى اللانهاية.

تعتبر عملية التدريب لنموذج ResNet بمثابة السيطرة على معادلة تفاضلية عادية (ODE)، بينما ترتبط عملية تدريب نماذج التحويل بالتحكم في معادلة تفاضلية جزئية (PDE)، نتيجة لترابط توزيعات الرموز المتعددة عبر آلية الانتباه. ويتميز نموذج المجال المتوسط لدينا بنوعين من تمثيلات القياس: تطور توزيعات الرموز عبر الطبقات ومعلمات الانتباه في كل طبقة.

تأسيس مفهوم محدد للتمرير الأمامي عبر نماذج التحويل غير المحدودة في العمق يتيح لنا توصيف تطور الرموز عبر خرائط التدفق التي تلبي معادلات ODE في فضاءات الدوال. من خلال تحليل حساسية متصلة، نستخرج صيغة صريحة لتدرج واسيترن (Wasserstein) الشرطي لمخاطر التدريب، تتضمن المتغيرات المتصلة التي تحكمها معادلات عكسية.

أثبتنا وجود فريد لمنحنيات تدفق التدرجات في فضاء قياس واسيترن الشرطي، مما يرسخ أساسًا صارمًا لتدريب نماذج التحويل القائم على التدرجات. من المساهمات التقنية الرئيسية هو تقديم شروط ضرورية وكافية لتحقيق استقلال نواة التانجنت العصبية (Neural Tangent Kernel - NTK) لآليات الانتباه، حيث أظهرنا أن استقلال NTK يعادل الاستقلال الخطي لدوال log-sum-exp modulo الدوال الهندسية، وهو شرط يتحقق بواسطة توزيعات رموز متنوعة، بما في ذلك التوزيعات المتقطعة والتوزيعات المتجانسة ومزج غاوسي.

تحت فرضية استقلالية NTK هذه، أثبتنا أن تدفق التدرجات يتقارب إلى الحد الأدنى العالمي عندما تكون الخسائر الأولية صغيرة بما فيه الكفاية، مما يلغي الحد الأدنى المحلي الوهمي من مشهد التحسين. هذه النتائج تفتح الأبواب أمام آفاق جديدة في تحسين نماذج التحويل وتوسيع إمكانياتها في التعلم الآلي.