في عالم الذكاء الاصطناعي، يمثل النمو الخطي لذاكرة التخزين المؤقت (KV cache) تحديًا كبيرًا في استنتاجات نماذج اللغات الكبيرة (LLMs) عند التعامل مع النصوص الطويلة. وقد أثبتت الأساليب الحالية لضغط البيانات التي تعتمد على استبعاد الرموز حسب درجات الأهمية فاعليتها إلى حد ما، لكن اتضح أن اعتمادها على اختيار أعلى المتفوقين (Top-k) يؤدي إلى ظاهرة تُعرف بإجلاء الكتل، مما يتسبب في طرد شديد للكتل المنطقية المتجاورة ويؤثر سلبًا على الاتساق المنطقي.

تقديم تقنية ضغط البيانات المنقسمة كتلاً (AMS) جاء كاستجابة فعالة لهذه المشكلة. تعمل هذه التقنية على تغيير النموذج التقليدي من المنافسة على مستوى الرموز إلى تخصيص حصة واعية للمناطق. تقوم AMS بتقسيم الذاكرة المؤقتة بناءً على التوزيع المكاني لكتلة الانتباه، مما يضمن أن تحصل القطاعات المنطقية الأساسية على حصص مضمونة من الذاكرة.

لضمان الاستقرار خلال عملية فك التشفير التدريجي، تضم AMS آلية تصحيح تعتمد على المتوسط المتحرك (EMA) لمنع الاضطرابات في حدود القطاعات. الأهم من ذلك، توفر AMS طبقة شاملة وقابلة للتوصيل في أي نظام، مما يعني أنها يمكن أن تندمج بسلاسة في طرق مثل TOVA وExpected Attention وKeyDiff وR-KV وTriAttention.

تمتاز AMS أيضًا بتوافقها مع أطر العمل الحديثة لخدمة التخزين المؤقت مثل vLLM، مما يدعم تنفيذ جمع وضغط البيانات بكفاءة دون إضافة عبء إضافي على الانتباه الثابت.

تظهر التجارب الشاملة عبر مجموعة متنوعة من المهام، بما في ذلك التفكير الرياضي (MATH500 وAIME وGSM8K) وإكمال الشيفرة واستعلامات النطاق المفتوح واسترجاع البيانات النادرة، أن AMS تقلل باستمرار من تشتت الهيكل وتعزز أداء النماذج بشكل ملحوظ.

في ضوء هذه التطورات، كيف ترون تأثيرات هذه التقنية على مستقبل الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!