تُشكل شبكات التغذية الأمامية (Feed-Forward Networks - FFNs) جزءًا أساسيًا من نماذج ترانسفورمر، ومع ذلك، فإن فهم طبيعة عدم الخطية في تلك الشبكات لم يُدرس بشكل كاف. يهدف البحث الجديد إلى كشف تفاصيل هذه الشباكات، حيث عُومل كل منها كتعيين مدخلات إلى مخرجات، مُقسمًا إلى تقريب خطي دقيق واحتياطي.

في هذا السياق، تم قياس القدرة على الاسترداد الخطي (Linear Recoverability) لكل كتلة، مُحددةً بتباين الاحتياطي، مما يساعد في تقييم مدى خطية عملها. أظهرت النتائج أن القدرات الخطية للنماذج مثل GPT-2 وPythia-160m وLlama-160m تختلف بصورة ملحوظة، حيث تراوحت القيم بين قريبة من الخطية (>0.99) إلى غير خطية بشدة (<0.3) في كتل متجاورة. ولم تكن هذه الفروق نتيجة لاختلافات في دالة التفعيل، مما يعني أن القدرة على الاسترداد هي خاصية مكتسبة وليست ناتجة عن المعمارية.

كما تم استخدام نموذج ثنائي الرتبة لاستكشاف الاحتياطي دون أن يتطابق مع عدم الخطية، مما يسلط الضوء على أن الحسابات التي لم تُسترد ليست مجرد منتج موضعي، بل هي هيكل أعلى ترتيب أو موزع. وقد أظهر البحث أيضًا أن الكتل القابلة للاسترداد يمكن أن تقبل استبدالات كبيرة، ما يمكّن تحسين الأداء بتقليل عدد المعلمات، بينما تشير الكتل ذات القدرة المنخفضة على الاسترداد إلى مخاطر استخدام استبدالات مشابهة.

في النهاية، تؤكد الدراسة على أهمية القياسات الدقيقة لفهم أداء النماذج، وإمكانية ملاحظة الفجوات في الأساليب الحالية، مما يفتح آفاقًا جديدة لفهم الأبعاد المعقدة لتعلم الآلة.