تشهد نماذج الرؤية واللغة (Vision-Language Models) تطوراً هائلاً، لاسيما في مجال معالجة الفيديوهات الطويلة. في دراسات حديثة، تم تقديم منهجية جديدة لتخفيض التوكنات (Token Reduction) ترتكز على نموذج هجيني يجمع بين تقنيات Mamba وTransformer. هذه المنهجية لا تقتصر على تخفيض عدد التوكنات عبر الإزالة، بل تقدم طريقة أكثر ذكاءً، تتمثل في الاحتفاظ بالمعلومات المستخلصة من التوكنات السابقة.

يتضمن هذا البحث دراسة عميقة حول كيفية احتفاظ الطبقات الهجينة بحالة متكررة (Recurrent State) من المعلومات التي تم جمعها، مما يسمح بعمل تخفيضات بطريقة مشابهة للضغط بدلاً من الحذف. وقد أظهرت النتائج أن المعلومات لا تتوزع بالتساوي داخل الطبقات، مما يجلب تحديات جديدة في تحديد الأهمية.

وبفضل هذه الدراسة، تم اقتراح إطار عمل يتبنى جدول زمني تدريجي يبدأ من تخفيض خفيف إلى شديد مع تقييم موحد لأهمية التوكنات لكل من طبقات الانتباه وMamba. وقد أظهرت النتائج محطات تحسين السرعة تصل إلى 4.2 مرات في معايير الفيديو الطويل، مع الحفاظ على دقة قريبة من النموذج الأساسي.

تمثل هذه النتائج خطوة كبيرة نحو تحسين كفاءة وأداء نماذج الرؤية واللغة، حيث يمكن للنماذج الهجينة الاستفادة الكاملة من هذه التقنية الجديدة، مما يسهل الاستخدام العملي لتنفيذها في التطبيقات المتنوعة.