شهد الذكاء الاصطناعي مؤخرًا تقدمًا ملحوظًا، لاسيما في مجال نماذج Transformers التي تُستخدم بشكل واسع في تطبيقات التعلم العميق. ومن المثير للاهتمام أن الدراسات الجديدة تُظهر أن "اتساع التنشيط" (Activation Sparsity) داخل كتل MLP من هذه النماذج يمكن أن يؤدي إلى تقليل كبير في تكاليف الحساب.
ولكن كيف يمكن تفسير هذه الظاهرة؟ في السابق، أظهرت الأبحاث أن هذه الحالة لا تنشأ من خصائص البيانات أو التوفيق مع البيانات، بل تعود إلى وجود انحيازات ضمنية في عملية التدريب. ومع ذلك، هذه النتائج اعتمدت على فرضيات قوية قد لا تكون ملائمة للبيانات العميقة التي يتم تدريبها على عدد كبير من الخطوات.
بدلاً من ذلك، وجدنا أن "استواء" سطح الخسارة يرتبط ارتباطًا وثيقًا باتساع التنشيط في MLP، وهو ما يمكن اعتباره افتراضًا أضعف وأكثر ظهورًا في الشبكات العميقة العادية.
لقد وجدنا أن:
1) اتساع التنشيط في MLP يساوي نسبة بين "استواء معزز" (Augmented Flatness) وضرب معيار الإدخال وميل التنشيط لـ MLP. وقد لوحظ أن هذه النسبة تقل خلال التدريب، مما يؤدي إلى تنشيطات نادرة.
2) نقترح أيضًا مفهوم "اتساع المشتقات" (Derivative Sparsity)، والذي يقلل إلى اتساع التنشيط تحت دالة ReLU، لكنه يوفر المزيد من الاستقرار ويمكن أن يعزز عمليات التقليم في الانتشار العكسي.
مع النتائج النظرية، يمكننا تعزيز اتساع التنشيط من خلال تخفيض البسط وزيادة المقام في النسبة باستخدام ثلاث طرق. يمكن لهذه التعديلات أن تؤدي بفعالية إلى تقليل النسبة وتحقيق تنشيطات نادرة أكثر.
تجارب على قاعدة بيانات ImageNet-1K و C4 أظهرت تحسينات نسبية لا تقل عن 36% في اتساع الاستدلال و50% في اتساع التدريب مقارنةً بـ Transformers التقليدية، مما يوحي بإمكانات إضافية لتقليل التكاليف في كل من الاستدلال والتدريب.
ثورة جديدة في الذكاء الاصطناعي: كيف يمكن لاتساع التنشيط تقليل تكاليف الكمبيوتر؟
تقدم دراسة جديدة رؤى حول كيف يمكن لاتساع التنشيط (Activation Sparsity) أن يسهم في خفض تكاليف الحساب في نماذج Transformers دون التأثير على الأداء. الاكتشافات تشير إلى أهمية سطح الخسارة وكيفية ارتباطه بعالم التعليم العميق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
