في عالم [التعلم](/tag/التعلم) الآلي، أصبحت [نماذج التحويل](/tag/[نماذج](/tag/نماذج)-التحويل) ([Transformers](/tag/transformers)) العمود الفقري للتطبيقات المبتكرة، ومع ذلك، كان الفهم النظري لديناميات تدريبها محدودًا نوعًا ما. قدّمت [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) إطارًا رياضيًا صارمًا لتحليل [التدريب](/tag/التدريب) القائم على التدرج في [نماذج التحويل](/tag/[نماذج](/tag/نماذج)-التحويل) ضمن نمط المجال المتوسط (mean-field regime)، حيث يميل كل من [العمق](/tag/العمق) ([عدد](/tag/عدد) الطبقات) والعرض ([عدد](/tag/عدد) [رؤوس الانتباه](/tag/رؤوس-[الانتباه](/tag/الانتباه))) إلى اللانهاية.

تعتبر عملية [التدريب](/tag/التدريب) لنموذج [ResNet](/tag/resnet) بمثابة السيطرة على معادلة تفاضلية عادية (ODE)، بينما ترتبط عملية [تدريب](/tag/تدريب) [نماذج التحويل](/tag/[نماذج](/tag/نماذج)-التحويل) بالتحكم في معادلة تفاضلية جزئية ([PDE](/tag/pde))، نتيجة لترابط [توزيعات](/tag/توزيعات) الرموز المتعددة [عبر](/tag/عبر) آلية [الانتباه](/tag/الانتباه). ويتميز [نموذج](/tag/نموذج) المجال المتوسط لدينا بنوعين من [تمثيلات](/tag/تمثيلات) [القياس](/tag/القياس): [تطور](/tag/تطور) [توزيعات](/tag/توزيعات) الرموز [عبر](/tag/عبر) الطبقات ومعلمات [الانتباه](/tag/الانتباه) في كل طبقة.

تأسيس مفهوم محدد للتمرير الأمامي [عبر](/tag/عبر) [نماذج التحويل](/tag/[نماذج](/tag/نماذج)-التحويل) غير المحدودة في [العمق](/tag/العمق) يتيح لنا توصيف [تطور](/tag/تطور) الرموز [عبر](/tag/عبر) [خرائط](/tag/خرائط) التدفق التي تلبي معادلات ODE في فضاءات الدوال. من خلال [تحليل](/tag/تحليل) [حساسية](/tag/حساسية) متصلة، نستخرج صيغة صريحة لتدرج واسيترن (Wasserstein) الشرطي لمخاطر التدريب، تتضمن المتغيرات المتصلة التي تحكمها معادلات عكسية.

أثبتنا وجود فريد لمنحنيات [تدفق التدرجات](/tag/تدفق-[التدرجات](/tag/التدرجات)) في [فضاء](/tag/فضاء) [قياس](/tag/قياس) واسيترن الشرطي، مما يرسخ أساسًا صارمًا لتدريب [نماذج التحويل](/tag/[نماذج](/tag/نماذج)-التحويل) القائم على [التدرجات](/tag/التدرجات). من المساهمات [التقنية](/tag/التقنية) الرئيسية هو تقديم شروط ضرورية وكافية لتحقيق استقلال نواة التانجنت العصبية (Neural Tangent Kernel - NTK) لآليات الانتباه، حيث أظهرنا أن استقلال NTK يعادل الاستقلال الخطي لدوال log-sum-exp modulo الدوال الهندسية، وهو شرط يتحقق بواسطة [توزيعات](/tag/توزيعات) [رموز](/tag/رموز) متنوعة، بما في ذلك [التوزيعات](/tag/التوزيعات) المتقطعة والتوزيعات المتجانسة ومزج غاوسي.

تحت فرضية [استقلالية](/tag/استقلالية) NTK هذه، أثبتنا أن [تدفق التدرجات](/tag/تدفق-[التدرجات](/tag/التدرجات)) يتقارب إلى الحد الأدنى العالمي عندما تكون الخسائر الأولية صغيرة بما فيه الكفاية، مما يلغي الحد الأدنى المحلي الوهمي من مشهد [التحسين](/tag/التحسين). هذه النتائج تفتح الأبواب أمام آفاق جديدة في [تحسين](/tag/تحسين) [نماذج التحويل](/tag/[نماذج](/tag/نماذج)-التحويل) وتوسيع إمكانياتها في [التعلم الآلي](/tag/[التعلم](/tag/التعلم)-الآلي).