تتعرض [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) ([Vision-Language Models](/tag/vision-language-models)) لضغوط شديدة في [التخزين](/tag/التخزين) المؤقت ([KV Cache](/tag/kv-cache)) أثناء فترة الاستدلال، حيث يتم [ترميز](/tag/ترميز) كل [صورة](/tag/صورة) غالباً إلى آلاف الرموز. وقد استخدمت معظم الطرق الحالية [تقنيات](/tag/تقنيات) [تقليم الرموز](/tag/[تقليم](/tag/تقليم)-الرموز) (Token [Pruning](/tag/pruning)) لاستغلال نُدرة الرموز، ولكن التخلص الدائم من المحتوى البصري يؤدي إلى ضعف ملحوظ في [أداء المهام](/tag/[أداء](/tag/أداء)-المهام) الدقيقة. من هنا تنبع الحاجة لتقنية جديدة تركز على نُدرة الميزات (Feature [Sparsity](/tag/sparsity)): فبدلاً من تفريغ أو تقليص [عدد](/tag/عدد) الرموز بشكل صارم، يمكن الحفاظ على المزيد من الرموز البصرية من خلال ضغط الأبعاد القنوية مع توفير نفس مساحة [الذاكرة](/tag/الذاكرة).
تواجه الطرق السابقة في [تقليم](/tag/تقليم) القنوات الرئيسة [تحديات](/tag/تحديات) هيكلية: فالتقليم القنوي حسب الرموز يعد تعبيرياً لكنه غير منظم وبطيء، في حين أن الاقتراب وفق الرؤوس (Head-wise approach) يتسم بالملاءمة مع [الأجهزة](/tag/الأجهزة) لكنه أقل فعالية. هنا يظهر [الابتكار](/tag/الابتكار) في RotateK، وهو إطار [عمل](/tag/عمل) يعتمد على [تقليم](/tag/تقليم) القنوات الرئيسة بحيث يتم استخدام [تقنية](/tag/تقنية) دوران تعتمد على [تحليل](/tag/تحليل) المركبات الرئيسية (PCA) لتحديد أهمية القناة بشكل يعتمد على الرموز.
تُطبق RotateK تقسيمًا دقيقًا للقنوات بالاعتماد على [مصفوفات](/tag/مصفوفات) دوران تتناسب مع أهمية القنوات في بعد منخفض مشترك، مما يمكّن من [تقليم](/tag/تقليم) دقيق [عبر](/tag/عبر) أقنعة خفيفة الوزن للرؤوس. وتعمل نواة [الانتباه](/tag/الانتباه) المركبة [Triton](/tag/triton) مباشرة على المفاتيح ذات القنوات النادرة لتمكين [فك التشفير](/tag/[فك](/tag/فك)-[التشفير](/tag/التشفير)) بكفاءة.
أظهرت [التجارب](/tag/التجارب) على اثنين من [نماذج](/tag/نماذج) [VLM](/tag/vlm) الممثلة أن RotateK تتفوق باستمرار على الطرق السابقة فيما يخص [الدقة](/tag/الدقة) والسرعة في [فك التشفير](/tag/[فك](/tag/فك)-[التشفير](/tag/التشفير)). بالإضافة إلى ذلك، أثبت التقليم المشترك للقنوات والرموز تحسناً ملحوظًا مقارنةً بالأساسيات التي تعتمد على الرموز فقط عند استخدام [ميزانية](/tag/ميزانية) [التخزين](/tag/التخزين) المؤقت المتطابقة.
إن RotateK تمثل مزيجًا مثيرًا بين [الكفاءة](/tag/الكفاءة) والابتكار في عالم [نماذج الرؤية](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)) واللغة، وتفتح آفاقًا جديدة لتجارب [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) التي نستطيع جميعاً الاستمتاع بها في المستقبل القريب. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).
ثورة جديدة في تقنيات الذاكرة: تقليم القنوات الرئيسة المتناغم لتحسين أداء نماذج الرؤية واللغة!
تقدم تقنية RotateK حلاً مبتكرًا ضغط القنوات الرئيسة في نماذج الرؤية واللغة، مما يحسن من الأداء والدقة في معالجة الصور. تعالوا نتعرف على هذه التقنية وكيف ستغير مستقبل الذكاء الاصطناعي!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
