تظل نماذج الذكاء الاصطناعي الضخمة، وخاصة نماذج اللغات (Large Language Models)، محط اهتمام الباحثين والمطورين بسبب أدائها الملحوظ في معالجة المهام المختلفة. لكن، يأتي التحدي في عدم قدرة هذه النماذج على التعامل مع سياقات الإدخال الطويلة بسبب قيود حجم الذاكرة وعرض النطاق.
في أحدث الأبحاث، تم تقديم منهجية جديدة تُسمى RDKV (Rate-Distortion KV cache compression) تهدف إلى حل مشكلة ضغط الذاكرة. تتزايد أبعاد ذاكرة KV بشكل خطي مع زيادة طول السلسلة، مما يتطلب إعادة القراءة من ذاكرة عالية النطاق (HBM) إلى الذاكرة الداخلية في كل خطوة من خطوات فك الترميز، مما يؤدي إلى أداء ذاكرة مقيد.
عادةً ما يتم تقليل الذاكرة عن طريق إخلاء أو تكميم المعلومات، ولكن القليل من الاستراتيجيات تعالج الأمر بشكل متكامل. تقدم RDKV نموذجًا يعتبِر ضغط الذاكرة كمسألة مزج معدل تشويه، حيث إن الإخلاء والتكميم هما نقطتا النهاية لنفس مخطط توزيع البتات. بناءً على هذا المنهج، تم تحسين العملية بشكل مشترك، مما يؤدي إلى نتائج محسنة للغاية.
تستند RDKV إلى وزن كل توكن أو قناة من التشتت الناتج عن ضغط المعالجة في حساب الانتباه. يتم تعيين عرض بت لكل توكن أو قناة يتراوح من دقة كاملة إلى صفر بت، مستندة إلى منهجية فريدة تعزز من فعالية النقل باستخدام الماء العكسي، المطبق مرة واحدة بعد مرحلة الحشو.
النتائج التجريبية التي تمت على مجموعات بيانات LongBench وRULER وInfiniteBench أظهرت أن RDKV تتفوق على أفضل قاعدة قابلة للتقييم بنسبة 9.1% في المتوسط. بالإضافة إلى ذلك، استرجعت الوثيقة 97.81% من دقة الذاكرة الكاملة مع احتفاظ فقط بنسبة 2.48%، في حين أنها حققت سرعة فك ترميز أسرع بمعدل 4.5 مرات مع تقليل للذاكرة بنسبة 1.9%، بالمقارنة مع فك التفريغ الكامل FlashAttention-2، وكل ذلك مع الحفاظ على أداء تنافسي.
RDKV: ثورة جديدة في تحسين أداء نماذج الذكاء الاصطناعي عبر إدارة ذكية لذاكرة KV
تقدم RDKV نهجًا جديدًا لضغط ذاكرة KV باستخدام تحسين مشترك بين الإخلاء والتكميم، مما يسهم في زيادة سرعة الاستجابة وتقليل استخدام الذاكرة. هذا الابتكار يحقق أداءً مذهلاً مع الحفاظ على دقة عالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
