في عالم الذكاء الاصطناعي، تعتبر تقنيات ضغط البيانات من أبرز الابتكارات التي تساهم في تعزيز الأداء والسرعة. ومن بين هذه التقنيات، تبرز تقنية STAR-KV كمنافس قوي يوفر حلاً مذهلاً لضغط ذاكرة (KV cache) من خلال استغلال الفهم العميق للبيانات.

STAR-KV يعتمد على بروكسيات منخفضة الرتبة (Low-rank projections) للاستفادة من التكرار في أبعاد البيانات الخفية، وهو ما يُعد خطوة هامة نحو تحسين كفاءة معالجة المعلومات. بينما كانت الطرق التقليدية تعتمد على اختيار رتبة ثابتة أو هجينة، عملت STAR-KV على تقديم حل مبتكر من خلال توفير تحكم دقيق في الرتبة، مما يسمح باختيار الأمثل للرتم في مستويات متعددة، منها مستويات الرؤوس (Attention-head) والمجموعات (Blocks).

الفكرة الرئيسية التي يقوم عليها STAR-KV هي آلية تحديد العتبة القابلة للتفريق، والتي تساعد في تفكيك الـKV بطريقة هادفة تتناسب مع حساسية بيانات المفاتيح والقيم. تتضمن الاستراتيجية تفكيك هجيني يعزز من دقة العمليات مع تقليل الحمل على الذاكرة.

إحدى المزايا المذهلة لـSTAR-KV هي تحقيقه ضغطًا يصل إلى 75% من ذاكرة KV، ويحقق ميزة مزدوجة بتقليل التكلفة الإجمالية لذاكرة KV حتى 20 مرة عند دمجه مع ترميز مختلط الدقة. بفضل أنوية مُخصصة تعتمد على (Triton-based GPU kernels)، يقدم STAR-KV تسريعًا يصل إلى 6.9 مرات في وحدة الانتباه و3.1 مرات في عمليات التوليد الكاملة.

يمكنكم الآن الاطلاع على الكود العام لهذه التقنية على GitHub. ما هي آراؤكم حول هذه التقنية الرائدة؟ شاركونا أفكاركم في التعليقات!