في عصر يتزايد فيه الاعتماد على الذكاء الاصطناعي، تظهر أبحاث جديدة تطوراً مثيراً في عالم المحولات (Transformers) الحاسوبية. حيث تم تقديم نموذج جديد يُعرف باسم TMMFormer الذي يستند إلى فكرة الزخم (Momentum) المستخدم في عمليات التحسين (Optimization). هذا النموذج لا يقدم فقط أداءً أعلى، بل يبدو أن له تأثيراً جذرياً على كيفية تعامل النماذج مع البيانات.

تتمثل فكرتنا في كيفية تفسير تحديثات الشبكة العصبية العادية كمراحل من تنفيذ محسن أولي، بحيث تعمل الأجزاء الخاصة بالانتباه (Attention) والشبكات العصبية متعددة الطبقات (MLP) كمرشدات للاتجاهات الضرورية.

قد أظهرت التجارب أن نموذج TMMFormer، المعروف بالزخم الثلاثي، يقلل من خطأ التحقق بشكل أكبر من النماذج التقليدية، مثل Transformer العادي، بالإضافة إلى نماذج سابقة. من خلال التجارب المنضبطة والنظريات الداعمة، تبين أن الزخم هو العامل الرئيسي الذي يسهم في تحقيق هذه القفزة النوعية، وليس التحضير المسبق.

الأهم من ذلك، أن التصميمات التي تعتمد على الزخم، بما في ذلك TMMFormer، تحقق درجات أقل من النسيان عندما تتم مواجهتها بنماذج جديدة، مما improves قدرتها على التعميم بشكل ملحوظ. وقد نشهد قريبًا تحولاً في كيفية تصميم وتطوير نماذج الذكاء الاصطناعي باستخدام هذه المبادئ.