تعتبر الهياكل المتبقية (Residual Architectures) من العناصر الأساسية في تعلم الآلات (Deep Learning)، إلا أنها تواجه مشكلة هيكلية بسيطة تتعلق بنمو معدل التبقي بسرعة مع العمق. نتيجة لذلك، تصبح التحديثات من الطبقات اللاحقة صغيرة مقارنة بحالة التبقي المتراكمة، مما يؤثر سلباً على التمثيل ويحد من فوائد زيادة العمق. للتغلب على هذه المشكلة، تم تقديم هيكلية NAG، التي تفصل بين الحجم والمعلومات الاتجاهية في تيار التبقي، مما يحافظ على مساهمات الطبقات الهامة على امتداد العمق ويمنع أي تخفيض منهجي للتحديثات اللاحقة بسبب نمو معدل التبقي.
الأهم من ذلك، أن NAG تضيف عددًا ضئيلًا من المعلمات الإضافية، وتعتمد على عمليات بسيطة يمكن دمجها بسهولة، مما يحافظ على كفاءة التدريب. أظهرت الدراسات أن هذه الهيكلية تتفوق على نماذج Transformers الأساسية، وخصوصاً مع زيادة العمق، مما يجعلها قادرة على تدريب نماذج أكثر عمقًا بفاعلية.
توفر الصياغة غير المنسوخة أيضاً آلية مفسرة تُعرف بآلية Mixture-of-Depths (MoD) التي تتخطى بصفة فعالة طبقات الانتباه وMLP. ليس فقط أنها تعمل كإستراتيجية لتوازن دقة الحساب بعد التدريب، بل يمكن استخدامها كأسلوب لتدريب مبدئي انتقائي. تحت تدريب iso-FLOP، يمكن إعادة استثمار الموارد المحفوظة بسبب تقليل تكلفة المرور لكل توكن، مما يعزز التدريب على المزيد من التوكنات مع الحفاظ على عدد المعلمات والميزانية المؤقتة ثابتة.
في تجاربنا، تستطيع معدلات Mixture-of-Depths المتوسطة التي تصل إلى حوالي 20%-25% أن تتطابق مع أداء القاع الكامل تحت نفس عبء تدريب الحساب مع تقليل كبير في عدد معلمات الطبقات المنفذة وFLOPs. تسلط هذه النتائج الضوء على أهمية التشعب في العمق كنهج جديد للتوسع في التدريب المثبت الحساب، مما يمكّن من إنشاء نماذج عميقة جدًا ولكن بكفاءة FLOP.
ثورة في الذكاء الاصطناعي: نتاج شبكات التحفيز غير المنسوخة لتعزيز العمق والتكيف
تقدم الباحثون بحل مبتكر يواجه تحديات العمق في الشبكات العصبية من خلال تطبيق هيكلية NAG التي تحافظ على خدمات كل طبقة. هذا التطور يساعد في تحسين أداء النماذج بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
