تعيش [تكنولوجيا الذكاء الاصطناعي](/tag/[تكنولوجيا](/tag/تكنولوجيا)-الذكاء-الاصطناعي) ثورة هائلة، ويأتي في مقدمة هذه التطورات وحدات الخطوط المسدودة (Gated Linear Units) المعروفة اختصاراً بـ [GLU](/tag/glu). رغم أن هذه الوحدات أصبحت شائعة في بنى [النماذج](/tag/النماذج) الحديثة والمفتوحة المصدر، إلا أن أسباب تفوقها على الوحدات غير المسدودة لا تزال غامضة للبعض.
في [دراسة](/tag/دراسة) حديثة، تم [تحليل](/tag/تحليل) وحدات [GLU](/tag/glu) [عبر](/tag/عبر) [شبكات](/tag/شبكات) مكونة من طبقتين في إطار [النواة](/tag/النواة) التنغيم العصبي (Neural Tangent Kernel NTK)، وتبين أن هيكل [GLU](/tag/glu) يعيد تشكيل طيف [النواة](/tag/النواة) التنغيمية، مما يؤدي إلى رقم شرط أصغر وتوزيع أكثر تماسكاً للقيم الذاتية. هذه النتائج توفر نظرة ثاقبة على كيفية تأثير [GLU](/tag/glu) على [ديناميكيات التدريب](/tag/[ديناميكيات](/tag/ديناميكيات)-[التدريب](/tag/التدريب)).
علاوة على ذلك، أظهرت التحليلات كيف أن الطيف المعاد تشكيله يؤثر على [تسريع](/tag/تسريع) التقارب لنماذج GLU، بما في ذلك ظاهرة فقدان عبور تمييزية تمت مشاهدتها بين [نماذج](/tag/نماذج) [GLU](/tag/glu) وغير [GLU](/tag/glu). ومع ذلك، لوحظ أن الاستخدام المحدود لوحدات [GLU](/tag/glu) في تقليل فجوة [التعميم](/tag/التعميم) [عبر](/tag/عبر) [نماذج](/tag/نماذج) متعددة، مثل [ViT](/tag/vit) و [GPT](/tag/gpt)-2، يشير إلى أن الفائدة الأساسية لهذه الوحدات تكمن في [تسريع](/tag/تسريع) عمليات [التحسين](/tag/التحسين) وليس تقليل فجوة [التعميم](/tag/التعميم).
إذا كنت من المهتمين بتطورات [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) وتبحث عن [معلومات](/tag/معلومات) إضافية حول تأثير وحدات GLU، فلا تتردد في قراءة المزيد والتفاعل معنا. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات)!
لماذا تُعتبر وحدات الخطوط المسدودة (GLU) الخيار الأفضل في النماذج الحديثة؟
تتمتع وحدات الخطوط المسدودة (GLU) بميزة ملحوظة على نظيراتها غير المسدودة في نماذج الذكاء الاصطناعي. دراسة جديدة تكشف تفاصيل كيفية تأثير GLU على ديناميكيات التدريب والسرعة في التقارب.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
