في عالم الذكاء الاصطناعي، تعد آلية الانتباه القائم على الصيغة الخطية (Linear Attention) من أحدث التطورات التي تجذب الأنظار، خاصة عند التعامل مع السياقات الطويلة. وفي هذا السياق، برزت الحاجة لتطوير أنظمة خدمية تتعامل بكفاءة مع هذه التقنية المتقدمة.

تواجه أنظمة الخدمة الحالية تحديات كبيرة تتمثل في الحاجة إلى حساب وتحديث حالة انتباه خطية ضخمة في كل خطوة من خطوات فك التشفير، مما يؤدي إلى استهلاك كبير لذاكرة الوصول العشوائي. في هذا الإطار، يتم تقديم KVBuffer كآلية خدمية واعية لإدخال/إخراج (IO-aware) تهدف لتحسين أداء الانتباه القائم على الصيغة الخطية.

من خلال تخزين المفاتيح والقيم الحديثة، تمكّن KVBuffer الأنظمة الخدمية من حساب مخرجات الانتباه بطريقة أكثر مرونة وكفاءة في استخدام الذاكرة. هذه الآلية تسمح بالتعامل مع البيانات على دفعات، مما يقلل من متوسط الوصول إلى الذاكرة وزمن الاستجابة، كما تُسهل عمليات فك التشفير التقديرية من خلال التحقق من الرموز التجريبية بالتوازي دون الحاجة لتخزين حالات مؤقتة.

وبالنسبة للسياقات القصيرة، تتمكن KVBuffer من حساب المخرجات مباشرة من المفاتيح والقيم المخزنة، مما يلغي الحاجة لإنشاء أو تحديث الحالة الخطية. تم تنفيذ KVBuffer في SGLang الخاصة بـ Qwen3-Next، حيث أظهرت تقييماتنا أن هذه الآلية يمكن أن تقلل من زمن استجابة فك التشفير للانتباه الخطّي بنسبة تصل إلى 45.17%، مع زيادة الحد الأقصى لعدد الطلبات الخدمية بمقدار 5 مرات عند التحقق من أربعة رموز تجريبية.

تنافس التكنولوجيا في مجال الذكاء الاصطناعي أصبح أكثر حماسة من أي وقت مضى! هل تعتقد أن KVBuffer يمكن أن يغير الطريقة التي نتعامل بها مع الانتباه القائم على الصيغة الخطية في المستقبل؟ شاركونا آراءكم في التعليقات!