في عالم الذكاء الاصطناعي، تلعب تصميمات الشبكات دورًا محوريًا في تحديد كيفية معالجة المعلومات. أحدثت النتائج الجديدة من دراسة حديثة تأثيرًا مثيرًا حول بنية الشبكة الغذائية للتغذية الأمامية (FeedForward Network - FFN). فالاختيارات المعمارية داخل كتلة FFN لا تؤثر فقط على هذه الكتلة، بل تعيد تشكيل العمليات الحسابية التي يتعلمها باقي النموذج.

التحليل الذي أُجري على محولات ذات طبقة واحدة تم تدريبها على مهام مثل جمع الأرقام مع حمل، والحسابات النمطية، وعدّ الهستوجرام، يكشف عن أشياء جديدة. فقد أظهرت المقارنات بين الشبكات الكثيفة، ووحدات الخطية الموجهة (Gated Linear Units - GLUs)، ومزيج الخبراء (Mixture-of-Experts - MoE)، أن توجيه MoE النادر يمكن أن يحول جانبًا كبيرًا من العمليات من الكتل الغذائية إلى الانتباه. والأهم من ذلك، أن التوجيه العشوائي المجمد يكاد يكون مماثلًا للتوجيه المتعلم، مما يشير إلى أن هذه إعادة توزيع العمليات مدفوعة في الغالب من قبل الندرة المعمارية بدلاً من التخصص المتعلم.

إضافة إلى ذلك، طريقة GLU-style في واجهة التوجيه تعدل هيكل فورييه ذي الصلة بالمهمة، مما يجعل التفسير على مستوى الخلايا العصبية أقل فائدة بينما يحافظ على العمليات المنظمة. تم التحقق من هذه النتائج باستخدام عدة تحليلات للمسارات العشوائية، وكثافة FFN الضيقة، والتحكم المعتمد على أفضل 2 من MoE.

بالمجمل، تُظهر هذه النتائج أن اختيارات تصميم FFN المحلية يمكن أن تكون لها آثار بعيدة المدى على عمليات الحساب في المحولات، وذلك يفتح الأفق لمزيد من الأبحاث في هذا المجال.