تشتهر نمذجة التسلسل حاليًا باستخدام هياكل المحولات التتابعية (Causal Transformer Architectures) التي تعتمد على الانتباه الذاتي باستخدام دالة الـ Softmax. ورغم انتشارها الواسع، تتطلب هذه التقنيات زيادة في الذاكرة والحوسبة بشكل خطي أثناء الاستدلال. ومع ذلك، تم تقديم عدد من الأعمال الحديثة التي تعمل على تسريع عملية دالة الـ Softmax، مما نتج عنه نماذج شبكية عصبية متكررة (Recurrent Neural Network) قوية مثل DeltaNet وMamba وxLSTM، والتي تتميز بتكاليف ثابتة للذاكرة والحوسبة.

تقدم الأبحاث الجديدة، بما في ذلك الدراسة التي قدمناها مع MesaNet، نقطة تحول في هذا المجال، حيث نقدم طبقة Mesa المُعدلة (هنا، يمكن مسميتها بالطبقة المُقاربة) التي كانت حتى وقت قريب تعالج البيانات بشكل تسلسلي، مما جعلها تفتقر إلى التوسع اللازم. الآن، بفضل استخدام أسلوب تحسين سريع يعتمد على تدرجات متعامدة، يمكننا تقليل الخسارة بشكل أمثل في كل نقطة زمنية.

على مدار مجموعة واسعة من التجارب التي تتجاوز حجم المليار بارامتر، أثبتنا أن التدريبات المثلى في وقت الاختبار تقود إلى تقليل درجة الغموض في نمذجة اللغة (Language Modeling Perplexity) وزيادة الأداء في مؤشرات الأداء العالية، خاصةً في المهام التي تتطلب فهم سياقات طويلة. ومع ذلك، يجب الانتباه إلى أن هذه المكاسب في الأداء تتطلب تكلفة إضافية من العمليات الحسابية خلال وقت الاستدلال.

وهنا نجد صلة مثيرة مع الاتجاهات الحديثة التي تدعو إلى زيادة الحوسبة في وقت الاختبار لتحسين الأداء، حيث نخصص المزيد من الطاقة الحسابية لحل مشاكل التحسين التسلسلي داخل الشبكة العصبية نفسها.