في عصر تسارع الابتكارات التقنية، ظهرت نماذج الرؤية واللغة (Vision-Language Models) كامتداد رئيسي لنماذج اللغة الضخمة (Large Language Models)، حيث تقدم حلاً ثورياً للمشكلات المعقدة من خلال معالجة المدخلات النصية والبصرية. ولكن مع كل هذه القدرات، تواجه هذه النماذج تحديات كبيرة تتمثل في زيادة استهلاك الذاكرة بسبب مخازن المفاتيح والقيم (KV cache) أثناء فك التشفير الآلي.
تعتبر هذه المشكلة أكثر وضوحًا عند التعامل مع الصور، حيث تنتج المزيد من تسلسلات الرموز المطولة والتمثيلات الكثيفة مقارنةً بالنصوص. بالإضافة إلى ذلك، تتطلب طبيعة الرموز البصرية أنماط انتباه هيكلية تجعل العديد من تقنيات ضغط KV cache غير فعالة عند تطبيقها مباشرة على نماذج الرؤية واللغة.
تحتوي الورقة البحثية الجديدة على تحليل تجريبي مُفصل لسلوك الرموز البصرية، موضحة الفروق الأساسية بينها وبين النماذج الماصة للنصوص. بناءً على هذه الرؤى، تم اقتراح تقنية KVCapsule، التي تعد إطار عمل جديدًا لضغط KV cache للرموز البصرية.
تتميز تقنية KVCapsule بالحفاظ على العمود الفقري لهيكل نماذج الرؤية واللغة دون الحاجة لتعديل وحدات حساب الانتباه، مما يسهل دمجها في النماذج الحالية من خلال مكونات ضغط وإعادة بناء خفيفة.
أظهرت التقييمات التي أُجريت على عدة نماذج VLM ومهام معيارية قدرة KVCapsule على تحسين الأداء حتى 2x وزيادة نسبة تخفيض ذاكرة KV cache بنسبة 2.4x عند نسبة ضغط 60%، مع الحفاظ على دقة وجودة الاستجابات.
تقدم نتائج هذه الدراسة مسارات عملية لتوسيع نطاق استنتاج نماذج الرؤية واللغة تحت قيود الذاكرة، مما يلهم المزيد من الأبحاث في ضغط الذاكرة الهيكلي للنماذج متعددة الوسائط.
KVCapsule: ثورة في تحسين كفاءة نماذج الرؤية واللغة مع ضغط مبتكر لمخزن المفاتيح
تقدم أحدث الأبحاث تقنية KVCapsule لتحسين أداء نماذج الرؤية واللغة عبر ضغط مخزن المفاتيح بكفاءة عالية. هذا الإنجاز يعد خطوة مهمة نحو تعزيز قدرات هذه النماذج مع الحفاظ على جودتها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
