تُعتبر نماذج اللغات الضخمة (Large Language Models - LLMs) نقلة نوعية في عالم الذكاء الاصطناعي، حيث تتمكن من التفوق في مهام معقدة مثل الإجابة عن الأسئلة والتلخيص. إلا أن تطبيق هذه النماذج يُواجه تحديات كبيرة تتعلق بالتكلفة العالية، التي تتجلى في احتياجاتها الكبيرة من الحوسبة والذاكرة. من بين القضايا الرئيسية التي تواجه هذه النماذج هو كاش المفاتيح والقيم (KV Cache) والذي يُحتاج إليه بكثافة أثناء عملية الاستدلال.

لتقليل التكاليف المرتبطة بالذاكرة، اعتمدت الاستراتيجيات الحالية لتخلص من كاش KV على الاستفادة من فراغ الانتباه (attention)، حيث تحاول تخزين مجموعة فرعية من الرموز فقط. إلا أن هذه الطرق تؤدي إلى انخفاض ملحوظ في الأداء، لا سيما في المهام التي تتطلب تفكير طويل السياق. وقد أظهرت الأبحاث أن هذا الانخفاض في الأداء يرتبط بتقليل التغطية للرموز الفريدة، والتي تؤثر بدورها على دقة التنبؤ.

وفي محاولة للتغلب على هذه التحديات، تم تقديم استراتيجية جديدة تُعرف باسم K-VEC، التي تركز على تعزيز تغطية الرموز أثناء عملية التخلص من الرموز من الكاش. تقوم هذه الاستراتيجية بتقديم وحدة تغطية عبر الرؤوس (cross-head) والطبقات (cross-layer) لزيادة احتفاظ الرموز عبر مختلف رؤوس الانتباه وطبقات النموذج، مما يساهم في تقليل التدهور في الأداء الناتج عن نقص التغطية.

وعند تقييم أداء K-VEC على 16 مجموعة فرعية من LongBench، أظهرت الاستراتيجية تحسنًا يصل إلى 10.35 نقطة مقارنة بالطرق الحالية تحت نفس معدل التخفيف والقيود المفروضة على الذاكرة. تؤكد التقييمات الشاملة فعالية هذا النهج، مما يُظهر إمكانياته في نشر نماذج اللغات الضخمة بشكل فعال حتى في البيئات المحدودة الموارد.

ما رأيكم في هذا التطور المبتكر في عالم الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!