تواجه النماذج اللغوية الكبيرة (LLMs)، وخاصة تلك التي تعتمد على سياقات طويلة، تحديات متزايدة فيما يتعلق بحجم الذاكرة وتكاليف فك الشفرات الخاصة بذاكرات القيم الرئيسية (KV caches). هذا الأمر يؤثر سلبًا على القدرة على نشر هذه التقنيات على الأجهزة المحدودة الموارد.
تتبع الطرق الحالية لإخلاء ذاكرة KV أساليب تقليدية تعتمد على تقييمات رمزية غير دقيقة، مما قد يؤدي إلى حذف رموز حيوية وبالتالي تدهور أداء النموذج. لمواجهة هذه المشكلة، يأتي الابتكار الجديد "CompressKV"، والذي يمثل إطارًا فعالًا من حيث الموارد لتقليص ذاكرات KV في النماذج المستندة إلى أسئلة وإجابات (GQA).
بدلاً من الاعتماد على مجموعات التقييمات الشاملة من جميع الرؤوس، يقوم CompressKV بتحديد الرؤوس الخاصة بالاسترجاع الدلالي (Semantic Retrieval Heads) التي تلتقط الرموز المهمة من النصوص، سواء كانت في البداية أو النهاية أو في السياق الوسيط. يتم استخدام هذه الرؤوس لاختيار الرموز التي ينبغي الاحتفاظ بها.
علاوة على ذلك، يقوم CompressKV بتخصيص ميزانيات الذاكرة عبر الطبقات بناءً على تقديرات سابقة لأخطاء الإخلاء لكل طبقة. أظهرت الاختبارات التي أجريت على LongBench وNeedle-in-a-Haystack أن CompressKV يتفوق باستمرار على طرائق إخلاء الذاكرة التقليدية ضمن ميزانيات الذاكرة. على سبيل المثال، حافظ على أداء يزيد عن 97% من الذاكرة الكاملة باستخدام فقط 3% من ذاكرة KV في مهام الأسئلة والإجابات على LongBench، وحقق دقة تبلغ 90% باستخدام 0.7% فقط من تخزين KV على Needle-in-a-Haystack.
تمثل هذه النتائج تحسينًا ملحوظًا في توازن تخصيص الموارد مقابل الأداء للنماذج اللغوية الطويلة. لمزيد من المعلومات، يمكنكم الاطلاع على الكود المتاح علنًا على GitHub.
اكتشاف ثوري في النماذج اللغوية: CompressKV لتحسين كفاءة الذاكرة في الاستدلالات الطويلة!
تقدم CompressKV خطوة جديدة في مجال النماذج اللغوية الكبيرة، حيث تقدم تقنية مبتكرة لتحسين كفاءة الذاكرة وتقليل تكاليف فك الشفرات. هذه التقنية تعيد توزيع البيانات المهمة وتحافظ على الأداء المتفوق للنماذج اللغوية في بيئات محدودة الموارد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
