في عالم [التعلم](/tag/التعلم) الآلي، أصبحت [نماذج التحويل](/tag/[نماذج](/tag/نماذج)-التحويل) ([Transformers](/tag/transformers)) العمود الفقري للتطبيقات المبتكرة، ومع ذلك، كان الفهم النظري لديناميات تدريبها محدودًا نوعًا ما. قدّمت [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) إطارًا رياضيًا صارمًا لتحليل [التدريب](/tag/التدريب) القائم على التدرج في [نماذج التحويل](/tag/[نماذج](/tag/نماذج)-التحويل) ضمن نمط المجال المتوسط (mean-field regime)، حيث يميل كل من [العمق](/tag/العمق) ([عدد](/tag/عدد) الطبقات) والعرض ([عدد](/tag/عدد) [رؤوس الانتباه](/tag/رؤوس-[الانتباه](/tag/الانتباه))) إلى اللانهاية.
تعتبر عملية [التدريب](/tag/التدريب) لنموذج [ResNet](/tag/resnet) بمثابة السيطرة على معادلة تفاضلية عادية (ODE)، بينما ترتبط عملية [تدريب](/tag/تدريب) [نماذج التحويل](/tag/[نماذج](/tag/نماذج)-التحويل) بالتحكم في معادلة تفاضلية جزئية ([PDE](/tag/pde))، نتيجة لترابط [توزيعات](/tag/توزيعات) الرموز المتعددة [عبر](/tag/عبر) آلية [الانتباه](/tag/الانتباه). ويتميز [نموذج](/tag/نموذج) المجال المتوسط لدينا بنوعين من [تمثيلات](/tag/تمثيلات) [القياس](/tag/القياس): [تطور](/tag/تطور) [توزيعات](/tag/توزيعات) الرموز [عبر](/tag/عبر) الطبقات ومعلمات [الانتباه](/tag/الانتباه) في كل طبقة.
تأسيس مفهوم محدد للتمرير الأمامي [عبر](/tag/عبر) [نماذج التحويل](/tag/[نماذج](/tag/نماذج)-التحويل) غير المحدودة في [العمق](/tag/العمق) يتيح لنا توصيف [تطور](/tag/تطور) الرموز [عبر](/tag/عبر) [خرائط](/tag/خرائط) التدفق التي تلبي معادلات ODE في فضاءات الدوال. من خلال [تحليل](/tag/تحليل) [حساسية](/tag/حساسية) متصلة، نستخرج صيغة صريحة لتدرج واسيترن (Wasserstein) الشرطي لمخاطر التدريب، تتضمن المتغيرات المتصلة التي تحكمها معادلات عكسية.
أثبتنا وجود فريد لمنحنيات [تدفق التدرجات](/tag/تدفق-[التدرجات](/tag/التدرجات)) في [فضاء](/tag/فضاء) [قياس](/tag/قياس) واسيترن الشرطي، مما يرسخ أساسًا صارمًا لتدريب [نماذج التحويل](/tag/[نماذج](/tag/نماذج)-التحويل) القائم على [التدرجات](/tag/التدرجات). من المساهمات [التقنية](/tag/التقنية) الرئيسية هو تقديم شروط ضرورية وكافية لتحقيق استقلال نواة التانجنت العصبية (Neural Tangent Kernel - NTK) لآليات الانتباه، حيث أظهرنا أن استقلال NTK يعادل الاستقلال الخطي لدوال log-sum-exp modulo الدوال الهندسية، وهو شرط يتحقق بواسطة [توزيعات](/tag/توزيعات) [رموز](/tag/رموز) متنوعة، بما في ذلك [التوزيعات](/tag/التوزيعات) المتقطعة والتوزيعات المتجانسة ومزج غاوسي.
تحت فرضية [استقلالية](/tag/استقلالية) NTK هذه، أثبتنا أن [تدفق التدرجات](/tag/تدفق-[التدرجات](/tag/التدرجات)) يتقارب إلى الحد الأدنى العالمي عندما تكون الخسائر الأولية صغيرة بما فيه الكفاية، مما يلغي الحد الأدنى المحلي الوهمي من مشهد [التحسين](/tag/التحسين). هذه النتائج تفتح الأبواب أمام آفاق جديدة في [تحسين](/tag/تحسين) [نماذج التحويل](/tag/[نماذج](/tag/نماذج)-التحويل) وتوسيع إمكانياتها في [التعلم الآلي](/tag/[التعلم](/tag/التعلم)-الآلي).
استكشاف عوالم جديدة: كيف تؤثر نماذج التحويل في مستقبل التعلم الآلي؟
تقدم دراسة جديدة إطارًا رياضيًا متطورًا لفهم ديناميات تدريب نماذج التحويل (Transformers) غير المحدودة في العمق والعرض. تكشف الأبحاث عن كيفية تحسين عملية التدريب وتفادي التحديات الشائعة في التعلم الآلي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
