تُعَدّ الكاش (Cache) أحد المكونات الحيوية التي تؤثر بشكل كبير على كفاءة الأداء في نماذج اللغة الضخمة (Large Language Models - LLMs)، ولكن تبقى مشكلة الحجم الذاكري للأداء عائقًا كبيرًا، إذ يتزايد هذا الحجم بشكل خطي مع طول السياق، مما يؤدي إلى عُقدة في قابلية التوسع. في الغالب، تُعتبر حالات الكاش كأنها متساوية الأهمية عبر الزمن، مع تجاهل للاختلافات الدقيقة بين الذاكرة البشرية والأداء الحالي.

بناءً على هذه الفكرة، يبرز ابتكار TTKV، وهو إطار عمل لإدارة الكاش يقوم بتوزيع الكاش على مستويات زمنية متعددة تختلف في السعة والدقة. يتميز تصميم TTKV بثلاثة جوانب رئيسية:
- **تنظيم المستويات (Tier Layout)**: حيث يتم فصل الذاكرة السريعة والبطئية باستخدام الذاكرة عالية النطاق (HBM) والذاكرة الديناميكية (DRAM).
- **محتوى المستويات (Tier Content)**: يتم تخصيص الحالات الأكثر حداثة للأرقي السريعة والأعلى دقة بناءً على القرب الزمني.
- **تفاعل المستويات (Tier Interaction)**: عبر استخدام الانتباه المتدفق (Streaming Attention) لتعظيم التداخل بين التواصل والحساب عند الوصول إلى المستويات البطيئة.

أظهرت التجارب أن استخدام TTKV يقلل من حركة المرور بين المستويات بنسبة 5.94 ضعفًا في المهام ذات السياقات البالغة 128K، مما يحقق تخفيضًا في الزمن يصل إلى 76% وتحسينًا في الإنتاجية بنسبة 2 ضعف عن النماذج السابقة. بهذا الابتكار، تظهر الإمكانيات المذهلة لتطوير نماذج اللغة، مما يسهم في تحسين تجربة المستخدم ويتيح تطبيقات جديدة في الذكاء الاصطناعي.