تتعرض [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) ([Vision-Language Models](/tag/vision-language-models)) لضغوط شديدة في [التخزين](/tag/التخزين) المؤقت ([KV Cache](/tag/kv-cache)) أثناء فترة الاستدلال، حيث يتم [ترميز](/tag/ترميز) كل [صورة](/tag/صورة) غالباً إلى آلاف الرموز. وقد استخدمت معظم الطرق الحالية [تقنيات](/tag/تقنيات) [تقليم الرموز](/tag/[تقليم](/tag/تقليم)-الرموز) (Token [Pruning](/tag/pruning)) لاستغلال نُدرة الرموز، ولكن التخلص الدائم من المحتوى البصري يؤدي إلى ضعف ملحوظ في [أداء المهام](/tag/[أداء](/tag/أداء)-المهام) الدقيقة. من هنا تنبع الحاجة لتقنية جديدة تركز على نُدرة الميزات (Feature [Sparsity](/tag/sparsity)): فبدلاً من تفريغ أو تقليص [عدد](/tag/عدد) الرموز بشكل صارم، يمكن الحفاظ على المزيد من الرموز البصرية من خلال ضغط الأبعاد القنوية مع توفير نفس مساحة [الذاكرة](/tag/الذاكرة).

تواجه الطرق السابقة في [تقليم](/tag/تقليم) القنوات الرئيسة [تحديات](/tag/تحديات) هيكلية: فالتقليم القنوي حسب الرموز يعد تعبيرياً لكنه غير منظم وبطيء، في حين أن الاقتراب وفق الرؤوس (Head-wise approach) يتسم بالملاءمة مع [الأجهزة](/tag/الأجهزة) لكنه أقل فعالية. هنا يظهر [الابتكار](/tag/الابتكار) في RotateK، وهو إطار [عمل](/tag/عمل) يعتمد على [تقليم](/tag/تقليم) القنوات الرئيسة بحيث يتم استخدام [تقنية](/tag/تقنية) دوران تعتمد على [تحليل](/tag/تحليل) المركبات الرئيسية (PCA) لتحديد أهمية القناة بشكل يعتمد على الرموز.

تُطبق RotateK تقسيمًا دقيقًا للقنوات بالاعتماد على [مصفوفات](/tag/مصفوفات) دوران تتناسب مع أهمية القنوات في بعد منخفض مشترك، مما يمكّن من [تقليم](/tag/تقليم) دقيق [عبر](/tag/عبر) أقنعة خفيفة الوزن للرؤوس. وتعمل نواة [الانتباه](/tag/الانتباه) المركبة [Triton](/tag/triton) مباشرة على المفاتيح ذات القنوات النادرة لتمكين [فك التشفير](/tag/[فك](/tag/فك)-[التشفير](/tag/التشفير)) بكفاءة.

أظهرت [التجارب](/tag/التجارب) على اثنين من [نماذج](/tag/نماذج) [VLM](/tag/vlm) الممثلة أن RotateK تتفوق باستمرار على الطرق السابقة فيما يخص [الدقة](/tag/الدقة) والسرعة في [فك التشفير](/tag/[فك](/tag/فك)-[التشفير](/tag/التشفير)). بالإضافة إلى ذلك، أثبت التقليم المشترك للقنوات والرموز تحسناً ملحوظًا مقارنةً بالأساسيات التي تعتمد على الرموز فقط عند استخدام [ميزانية](/tag/ميزانية) [التخزين](/tag/التخزين) المؤقت المتطابقة.

إن RotateK تمثل مزيجًا مثيرًا بين [الكفاءة](/tag/الكفاءة) والابتكار في عالم [نماذج الرؤية](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)) واللغة، وتفتح آفاقًا جديدة لتجارب [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) التي نستطيع جميعاً الاستمتاع بها في المستقبل القريب. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).