تتعرض نماذج الرؤية واللغة (Vision-Language Models) لضغوط شديدة في التخزين المؤقت (KV Cache) أثناء فترة الاستدلال، حيث يتم ترميز كل صورة غالباً إلى آلاف الرموز. وقد استخدمت معظم الطرق الحالية تقنيات تقليم الرموز (Token Pruning) لاستغلال نُدرة الرموز، ولكن التخلص الدائم من المحتوى البصري يؤدي إلى ضعف ملحوظ في أداء المهام الدقيقة. من هنا تنبع الحاجة لتقنية جديدة تركز على نُدرة الميزات (Feature Sparsity): فبدلاً من تفريغ أو تقليص عدد الرموز بشكل صارم، يمكن الحفاظ على المزيد من الرموز البصرية من خلال ضغط الأبعاد القنوية مع توفير نفس مساحة الذاكرة.

تواجه الطرق السابقة في تقليم القنوات الرئيسة تحديات هيكلية: فالتقليم القنوي حسب الرموز يعد تعبيرياً لكنه غير منظم وبطيء، في حين أن الاقتراب وفق الرؤوس (Head-wise approach) يتسم بالملاءمة مع الأجهزة لكنه أقل فعالية. هنا يظهر الابتكار في RotateK، وهو إطار عمل يعتمد على تقليم القنوات الرئيسة بحيث يتم استخدام تقنية دوران تعتمد على تحليل المركبات الرئيسية (PCA) لتحديد أهمية القناة بشكل يعتمد على الرموز.

تُطبق RotateK تقسيمًا دقيقًا للقنوات بالاعتماد على مصفوفات دوران تتناسب مع أهمية القنوات في بعد منخفض مشترك، مما يمكّن من تقليم دقيق عبر أقنعة خفيفة الوزن للرؤوس. وتعمل نواة الانتباه المركبة Triton مباشرة على المفاتيح ذات القنوات النادرة لتمكين فك التشفير بكفاءة.

أظهرت التجارب على اثنين من نماذج VLM الممثلة أن RotateK تتفوق باستمرار على الطرق السابقة فيما يخص الدقة والسرعة في فك التشفير. بالإضافة إلى ذلك، أثبت التقليم المشترك للقنوات والرموز تحسناً ملحوظًا مقارنةً بالأساسيات التي تعتمد على الرموز فقط عند استخدام ميزانية التخزين المؤقت المتطابقة.

إن RotateK تمثل مزيجًا مثيرًا بين الكفاءة والابتكار في عالم نماذج الرؤية واللغة، وتفتح آفاقًا جديدة لتجارب الذكاء الاصطناعي التي نستطيع جميعاً الاستمتاع بها في المستقبل القريب. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.