تُعد قدرات التفكير والسياقات الطويلة في نماذج اللغات الضخمة (Large Language Models - LLMs) من العناصر الأساسية التي تسهم في التطبيقات المتنوعة مثل فهم الوثائق الطويلة، والتلخيص، وتوليد الشفرات. ولكن بات من الضروري العمل على تحسين عملية الاستدلال التلقائي بشكل فعال، حيث تمثل ذاكرة مفاتيح وقيم (Key-Value - KV) تحدياً كبيراً، إذ أن حجم الذاكرة ينمو بشكل خطي مع زيادة طول التسلسل، مما يؤدي إلى انعدام الكفاءة وخلق عنق زجاجة في الأداء.

للتغلب على هذه المشكلة، ظهرت طرق تقليل KV cache التي تلجأ للتخلص من الرموز المخزنة غير المهمة والتي تحمل درجات اهتمام منخفضة أثناء عملية الاستدلال، إلا أن غالبية هذه الطرق تعتمد على نسبة قطع موحدة بين الطبقات، مما يفترض ضمنياً أن جميع الطبقات تسهم بشكل متساوٍ في الأداء العام للنموذج.

ومع ذلك، أظهرت الأبحاث أن هذا الافتراض غير مثالي، حيث أن حساسية الطبقات تختلف بشكل كبير. لذلك، تم اقتراح إطار عمل DepthKV الذي يعتمد على تقنيات القطع الطبقية، حيث يخصص ميزانية ثابتة لذاكرة KV عبر الطبقات اعتماداً على حساسيتها بدلاً من الاعتماد على تخصيص موحد.

تظهر النتائج عبر نماذج متعددة ومهام مختلفة أن DepthKV يتفوق باستمرار على الطرق التقليدية في القطع، مما يُبرز استخداما أكثر فعالية لميزانية ذاكرة KV من خلال تخصيص يعتمد على كل طبقة. إن هذا التطور يعد خطوة رائدة نحو تحسين أداء نماذج الذكاء الاصطناعي في معالجة المعلومات الطويلة.

ما رأيكم في هذه التقنية الجديدة؟ هل تعتقدون أنها ستحدث ثورة في عالم الذكاء الاصطناعي؟ شاركونا في التعليقات.