في عالم الذكاء الاصطناعي حيث تتسابق الشركات لتحقيق الابتكارات، تظهر نماذج الفضاءات الحالة (State Space Models) كأحد الحلول الواعدة. جاءت الدراسة الأخيرة تحت عنوان “Ternary Mamba” لتطلق العنان لأساليب جديدة في تدريب هذه النماذج.

تمتاز نماذج الفضاءات الحالة مثل Mamba-2 بسرعة استنتاجها في الزمن الخطي، ولكن كانت تعاني من قيود في استخدام الذاكرة أثناء النشر على الأجهزة المحمولة. قبل هذه الدراسة، كان العمل السابق على نموذج الفضاءات الحالة الثلاثية (Slender-Mamba) يعتمد على تدريب النموذج من الصفر على 150 مليار توكِن (tokens). ومع ذلك، أثبتت الأبحاث الجديدة أن استخدام نقطة بداية مسبقة (pretrained checkpoint) يمكن أن يقلل من عدد التوكِنات اللازمة لتدريب النموذج بواقع 1000 مرة.

نظام التدريب الجديد المعروف باسم “Grouped Quantization-Aware Training” (QAT) يعتمد على تقنيات تصغير حجم النموذج باستخدام الاستدلال المعرفي، مما يمكنه من ضغط نموذج Mamba-2 من 1.3 مليار إلى 3.61 مرة (من 2687 ميجابايت إلى 744 ميجابايت) مع الحفاظ على دقة تبلغ 48.1% في وضعية عدم التدريب (zero-shot accuracy) مع 102 مليون توكِن فقط.

لكن البحث لم يتوقف عند هذا الحد، حيث كشفت التجارب أيضًا عن ظاهرة جديدة تُعرَف باسم “zero-ratio collapse” وشددت على أن استراتيجيات تصحيح الأخطاء المتبعة في نماذج Transformers لا يمكن تطبيقها بشكل فعال على نماذج SSMs بسبب تراكم الأخطاء خلال العمليات التكرارية.

وعلى الرغم من التحديات، تقدم هذه النتائج بديلاً فعالًا للتدريب التقليدي من الصفر، مما يجعل نماذج الفضاءات الحالة الثلاثية خيارًا جذابًا وفعالًا من حيث البيانات للتطبيقات المستقبلية.