يشكل استنتاج نتاجات نماذج اللغات الضخمة (LLMs) تحدياً كبيراً بفضل تكلفة الذاكرة وعرض النطاق الترددي المرتبطة بقراءة كاش المفاتيح والقيم الكبيرة أثناء فك الشفرة. تعتبر تقنية ضغط الكاش (KV Compression) حلاً مثيرًا للاهتمام، حيث تعمل على تقليل هذه التكلفة من خلال الاحتفاظ بجزء فقط من الكاش، لكن دقة المهام وحدها لا تعكس لماذا ينجح أو يفشل نظام الاختيار.

يمكن أن يفشل نظام الاختيار في ثلاث خطوات رئيسية: فقدان الأدلة اللازمة للفك، إعطاء درجات عالية للرموز التي لا تؤثر على الناتج، أو تكسير الأدلة ذات الصلة عند ملاءمة الدرجات ضمن كاش صغير. في هذا السياق، تم تقديم تشخيص ثابت العقد الذي يحافظ على إعداد نظام الاختيار ثابتًا ويغير واحدًا من قراراته في كل مرة.

استخدمنا تقنية جديدة لتصنيف القيم، حيث تجمع بين الكتلة الانتباهية للقسم مع التغيير المقدر للناتج الناتج عن إزالته. وفقًا لدراسة على LongBench عبر ثلاثة نماذج وميزانيتين، أظهرت النتائج أن التشخيص إيجابي على 72.6% من الخلايا ذات الهامش الإيجابي و32.4% من الخلايا غير إيجابية الهامش. كما تدعم الأدلة من NeedleBench M-RT عند 32k وتحقق RULER 8k تغلق تحت الاسترجاع المتشعب، وهي تشير إلى الحاجة لاستعادة الأدلة في جانب الفك، وتصنيف القيمة الناتجة عنها، والحفاظ على الأدلة المترابطة أثناء العرض.

هذه التطورات تمثل خطوة كبيرة نحو تحسين الأداء الكلي لنماذج الذكاء الاصطناعي، مما يقدم أملًا جديدًا في تسريع الاستنتاج وتحسين دقة المهام المخصصة. كيف ترى تأثير هذه التقنية على مستقبل الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.