في مجال الذكاء الاصطناعي، يعد الوصول إلى استدلال فعال وسريع للنماذج الكبيرة أمرًا بالغ الأهمية. لكن، غالبًا ما ترتبط مكتبات الاستدلال الحديثة مثل **Mamba-2** بحدود معينة من حيث قابلية النقل بين بيئات المعالجة المختلفة نظرًا للاعتماد على **CUDA** و**Triton**. في هذا السياق، جاء الابتكار الجديد ليأخذ الأمور إلى مستوى آخر.

أظهر الباحثون من خلال عملهم الأخير أن التكرار باستخدام **State Space Duality** (SSD) يحمل هيكلًا مناسبًا للاستخدام مع المترجمين، مما يساهم في إنشاء ديناميكيات خطية مائلة بسهولة. لقد تم استغلال هذا الهيكل بواسطة **JAX** لإنتاج مسار استدلال موحد دون الحاجة لقواعد مخصصة، مما يسمح بتخزين **PyTree** للبيانات لكل مستوى في البرنامج.

النتائج كانت مثيرة للإعجاب: على جهاز Google Cloud TPU v6e، تمكنت تقنية التخزين المسبق من تحقيق نحو **140 TFLOPS**، مما يعني استخدام 15% فقط من طاقة النموذج. بل الأكثر من ذلك، فإن خوارزمية **cached decode** أثبتت أنها أسرع بـ **27x-36x** مقارنة بإعادة الحساب الكامل على مقاييس مختلفة للنموذج.

لا تقتصر هذه الفوائد على بيئة Google فقط، بل يمكن استخدام نفس المصدر دون تعديلات على بطاقات **NVIDIA L40S** بنجاح، مما يؤكد على قدرة التخزين المؤقت على التكيف مع مختلف مقاييس النموذج.

مع قدرة مدهشة على التعامل مع سياقات تصل إلى **4096-token**، يبشر هذا الابتكار بآفاق واسعة في عالم الذكاء الاصطناعي، حيث يتطلع الجميع إلى تحسين أداء النماذج الكبيرة وتحقيق نتائج أسرع وأوجه استخدام أكثر مرونة.