تشكل ذاكرة التخزين المؤقت من نوع Key-Value (KV) جزءًا أساسيًا من نماذج الرؤية واللغة الكبيرة (Large Vision-Language Models) في عملية الاستنتاج، حيث تساهم بشكل كبير في تحسين كفاءة فك التشفير. ومع ذلك، فإن الاعتماد المباشر على هذه التقنية في نماذج LVLMs يؤدي إلى زيادة كبيرة في استخدام ذاكرة GPU بسبب العدد الكبير من رموز الرؤية التي تتم معالجتها خلال مرحلة التعبئة الأولية.

للتصدي لهذه المشكلة، تم تقديم طريقة مبتكرة تُعرف باسم LightKV، والتي تهدف إلى تقليل حجم ذاكرة التخزين المؤقت KV من خلال استغلال التكرار بين تضمينات رموز الرؤية. تعتمد هذه الطريقة على توجيه استعلامات نصية، وتستخدم تقنية مرور الرسائل بين الأبعاد (cross-modality message passing) لجمع رسائل مفيدة من خلال رموز الرؤية وضغطها بشكل تدريجي أثناء مرحلة التعبئة الأولية. يميز هذا التوجيه المعتمد على الاستعلامات طريقة LightKV عن استراتيجيات الضغط التي تركز فقط على الرؤية.

تم تقييم LightKV على ثمانية نماذج LVLM مفتوحة المصدر عبر ثمانية مجموعات بيانات معيارية عامة، مثل MME وSeedBench. أظهرت النتائج التجريبية أنه باستخدام 55% فقط من رموز الرؤية الأصلية، تمكنت LightKV من:

1. تقليل حجم ذاكرة التخزين المؤقت KV لرموز الرؤية إلى النصف.
2. تقليل استهلاك الحسابات بنسبة تصل إلى 40%.
3. الحفاظ على الأداء العام مع التفوق بشكل ملحوظ على المعايير الحالية.

إن هذه الابتكارات في LightKV تمثل خطوة إيجابية نحو تحسين الكفاءة والأداء في نماذج الرؤية واللغة، مما يفتح الأفق لمزيد من التطورات في هذا المجال سريع النمو. كيف ترون أثر هذه الابتكارات في المستقبل القريب؟ شاركونا آرائكم في التعليقات!