تعتبر تقنية ضغط الذاكرة (KV cache compression) من الأدوات الحيوية لتقليل تكلفة الذاكرة أثناء عملية استنتاج نماذج الذكاء الاصطناعي ذات السياقات الطويلة، مثل نماذج اللغات الضخمة (Large Language Models). ومع ذلك، فالغالبية العظمى من المنهجيات الحالية تعتمد على سياسة ضغط واحدة وميزانية ذاكرة موحدة لجميع طبقات المحولات (Transformers)، مما يتجاهل اختلاف الأدوار التي تلعبها هذه الطبقات خلال عمليات التحميل والتفسير.

هنا تأتي أهمية إطار العمل PolyKV، الذي يقدم حلاً مبتكرًا لتحسين كفاءة الذاكرة على مستوى الطبقات. تعتمد PolyKV على أساليب تصميم مرنة لتخصيص سياسات الضغط وميزانيات الذاكرة وفقًا للإشارات الخاصة بكل طبقة. فعلى سبيل المثال، تُحدد PolyKV لكل طبقة سياسة ضغط مناسبة بناءً على الإشارات المتاحة، مع تخصيص ميزانيات غير متناظرة تحت ميزانية إجمالية ثابتة.

ووفقًا للتجارب التي أجريت على نماذج LLaMA-3.1-8B و Qwen3-8B، استطاعت PolyKV أن تُحسن الأداء بمعدلات ملحوظة. حيث أظهرت النتائج أنه تحت نفس الميزانية المتوسطة المخصصة والتي تبلغ 512 توكن، استطاعت PolyKV استعادة 54.5% و25.7% من الفجوة في أداء اختبار LongBench بالمقارنة مع أفضل سياسة أحادية، مما يعكس كفاءة تقنية PolyKV في تجاوز التحديات التقليدية.

إن هذا الابتكار لن يساهم فقط في تحسين أداء نماذج الذكاء الاصطناعي، بل سيساعد أيضًا على تحقيق استدامة أكبر في استخدام الموارد خلال مرحلة الاستنتاج.

ما رأيكم في هذا التطور وكيف ترون تأثيره على مستقبل الذكاء الاصطناعي؟ شاركونا في التعليقات.