تواجه النماذج اللغوية الكبيرة (LLMs)، وخاصة تلك التي تعتمد على سياقات طويلة، تحديات متزايدة فيما يتعلق بحجم الذاكرة وتكاليف فك الشفرات الخاصة بذاكرات القيم الرئيسية (KV caches). هذا الأمر يؤثر سلبًا على القدرة على نشر هذه التقنيات على الأجهزة المحدودة الموارد.

تتبع الطرق الحالية لإخلاء ذاكرة KV أساليب تقليدية تعتمد على تقييمات رمزية غير دقيقة، مما قد يؤدي إلى حذف رموز حيوية وبالتالي تدهور أداء النموذج. لمواجهة هذه المشكلة، يأتي الابتكار الجديد "CompressKV"، والذي يمثل إطارًا فعالًا من حيث الموارد لتقليص ذاكرات KV في النماذج المستندة إلى أسئلة وإجابات (GQA).

بدلاً من الاعتماد على مجموعات التقييمات الشاملة من جميع الرؤوس، يقوم CompressKV بتحديد الرؤوس الخاصة بالاسترجاع الدلالي (Semantic Retrieval Heads) التي تلتقط الرموز المهمة من النصوص، سواء كانت في البداية أو النهاية أو في السياق الوسيط. يتم استخدام هذه الرؤوس لاختيار الرموز التي ينبغي الاحتفاظ بها.

علاوة على ذلك، يقوم CompressKV بتخصيص ميزانيات الذاكرة عبر الطبقات بناءً على تقديرات سابقة لأخطاء الإخلاء لكل طبقة. أظهرت الاختبارات التي أجريت على LongBench وNeedle-in-a-Haystack أن CompressKV يتفوق باستمرار على طرائق إخلاء الذاكرة التقليدية ضمن ميزانيات الذاكرة. على سبيل المثال، حافظ على أداء يزيد عن 97% من الذاكرة الكاملة باستخدام فقط 3% من ذاكرة KV في مهام الأسئلة والإجابات على LongBench، وحقق دقة تبلغ 90% باستخدام 0.7% فقط من تخزين KV على Needle-in-a-Haystack.

تمثل هذه النتائج تحسينًا ملحوظًا في توازن تخصيص الموارد مقابل الأداء للنماذج اللغوية الطويلة. لمزيد من المعلومات، يمكنكم الاطلاع على الكود المتاح علنًا على GitHub.