في عصر تسارع [الابتكارات](/tag/الابتكارات) التقنية، ظهرت [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) ([Vision-Language Models](/tag/vision-language-models)) كامتداد رئيسي لنماذج [اللغة](/tag/اللغة) الضخمة (Large Language [Models](/tag/models))، حيث تقدم حلاً ثورياً للمشكلات المعقدة من خلال معالجة المدخلات النصية والبصرية. ولكن مع كل هذه القدرات، تواجه هذه [النماذج](/tag/النماذج) [تحديات](/tag/تحديات) كبيرة تتمثل في زيادة استهلاك [الذاكرة](/tag/الذاكرة) بسبب مخازن المفاتيح والقيم (KV cache) أثناء [فك التشفير](/tag/[فك](/tag/فك)-[التشفير](/tag/التشفير)) الآلي.

تعتبر هذه المشكلة أكثر وضوحًا عند التعامل مع الصور، حيث تنتج المزيد من تسلسلات الرموز المطولة والتمثيلات الكثيفة مقارنةً بالنصوص. بالإضافة إلى ذلك، تتطلب طبيعة الرموز البصرية أنماط [انتباه](/tag/انتباه) هيكلية تجعل العديد من [تقنيات](/tag/تقنيات) [ضغط KV](/tag/ضغط-kv) cache غير فعالة عند تطبيقها مباشرة على [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة).

تحتوي الورقة البحثية الجديدة على [تحليل](/tag/تحليل) تجريبي مُفصل لسلوك الرموز البصرية، موضحة الفروق الأساسية بينها وبين [النماذج](/tag/النماذج) الماصة للنصوص. بناءً على هذه الرؤى، تم [اقتراح](/tag/اقتراح) [تقنية](/tag/تقنية) KVCapsule، التي تعد إطار [عمل](/tag/عمل) جديدًا لضغط KV cache للرموز البصرية.

تتميز [تقنية](/tag/تقنية) KVCapsule بالحفاظ على العمود الفقري لهيكل [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) دون الحاجة لتعديل وحدات [حساب](/tag/حساب) الانتباه، مما يسهل دمجها في [النماذج](/tag/النماذج) الحالية من خلال مكونات ضغط وإعادة [بناء](/tag/بناء) خفيفة.

أظهرت [التقييمات](/tag/التقييمات) التي أُجريت على عدة [نماذج](/tag/نماذج) [VLM](/tag/vlm) ومهام معيارية قدرة KVCapsule على [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) حتى 2x وزيادة نسبة تخفيض [ذاكرة](/tag/ذاكرة) KV cache بنسبة 2.4x عند نسبة ضغط 60%، مع الحفاظ على [دقة](/tag/دقة) وجودة الاستجابات.

تقدم نتائج هذه [الدراسة](/tag/الدراسة) مسارات عملية لتوسيع نطاق [استنتاج](/tag/استنتاج) [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) تحت [قيود](/tag/قيود) الذاكرة، مما يلهم المزيد من [الأبحاث](/tag/الأبحاث) في [ضغط الذاكرة](/tag/ضغط-[الذاكرة](/tag/الذاكرة)) الهيكلي للنماذج [متعددة الوسائط](/tag/متعددة-الوسائط).