في عصر تسارع [الابتكارات](/tag/الابتكارات) التقنية، ظهرت [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) ([Vision-Language Models](/tag/vision-language-models)) كامتداد رئيسي لنماذج [اللغة](/tag/اللغة) الضخمة (Large Language [Models](/tag/models))، حيث تقدم حلاً ثورياً للمشكلات المعقدة من خلال معالجة المدخلات النصية والبصرية. ولكن مع كل هذه القدرات، تواجه هذه [النماذج](/tag/النماذج) [تحديات](/tag/تحديات) كبيرة تتمثل في زيادة استهلاك [الذاكرة](/tag/الذاكرة) بسبب مخازن المفاتيح والقيم (KV cache) أثناء [فك التشفير](/tag/[فك](/tag/فك)-[التشفير](/tag/التشفير)) الآلي.
تعتبر هذه المشكلة أكثر وضوحًا عند التعامل مع الصور، حيث تنتج المزيد من تسلسلات الرموز المطولة والتمثيلات الكثيفة مقارنةً بالنصوص. بالإضافة إلى ذلك، تتطلب طبيعة الرموز البصرية أنماط [انتباه](/tag/انتباه) هيكلية تجعل العديد من [تقنيات](/tag/تقنيات) [ضغط KV](/tag/ضغط-kv) cache غير فعالة عند تطبيقها مباشرة على [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة).
تحتوي الورقة البحثية الجديدة على [تحليل](/tag/تحليل) تجريبي مُفصل لسلوك الرموز البصرية، موضحة الفروق الأساسية بينها وبين [النماذج](/tag/النماذج) الماصة للنصوص. بناءً على هذه الرؤى، تم [اقتراح](/tag/اقتراح) [تقنية](/tag/تقنية) KVCapsule، التي تعد إطار [عمل](/tag/عمل) جديدًا لضغط KV cache للرموز البصرية.
تتميز [تقنية](/tag/تقنية) KVCapsule بالحفاظ على العمود الفقري لهيكل [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) دون الحاجة لتعديل وحدات [حساب](/tag/حساب) الانتباه، مما يسهل دمجها في [النماذج](/tag/النماذج) الحالية من خلال مكونات ضغط وإعادة [بناء](/tag/بناء) خفيفة.
أظهرت [التقييمات](/tag/التقييمات) التي أُجريت على عدة [نماذج](/tag/نماذج) [VLM](/tag/vlm) ومهام معيارية قدرة KVCapsule على [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) حتى 2x وزيادة نسبة تخفيض [ذاكرة](/tag/ذاكرة) KV cache بنسبة 2.4x عند نسبة ضغط 60%، مع الحفاظ على [دقة](/tag/دقة) وجودة الاستجابات.
تقدم نتائج هذه [الدراسة](/tag/الدراسة) مسارات عملية لتوسيع نطاق [استنتاج](/tag/استنتاج) [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) تحت [قيود](/tag/قيود) الذاكرة، مما يلهم المزيد من [الأبحاث](/tag/الأبحاث) في [ضغط الذاكرة](/tag/ضغط-[الذاكرة](/tag/الذاكرة)) الهيكلي للنماذج [متعددة الوسائط](/tag/متعددة-الوسائط).
KVCapsule: ثورة في تحسين كفاءة نماذج الرؤية واللغة مع ضغط مبتكر لمخزن المفاتيح
تقدم أحدث الأبحاث تقنية KVCapsule لتحسين أداء نماذج الرؤية واللغة عبر ضغط مخزن المفاتيح بكفاءة عالية. هذا الإنجاز يعد خطوة مهمة نحو تعزيز قدرات هذه النماذج مع الحفاظ على جودتها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
