في عالم الذكاء الاصطناعي، تجد الوكلاء يقومون بنفس العملية السخيفة مراراً وتكراراً: قراءة وثيقة واحدة وإعادة حسابها من الصفر في كل مرة. هذه العملية تستنزف موارد الحساب بشكل كبير، حيث يعيد كل وكيل تنفيذ خطوة التحضير، وهي الأكثر استهلاكاً للطاقة، على نصوص متطابقة، ليعيد بناء ذاكرة التخزين المؤقت (KV) مماثلة تمامًا لتلك التي أنشأها الوكيل قبله. ومن هنا، نتساءل: لماذا لا نحسبها مرة واحدة فقط؟

نقترح حلاً بسيطًا لكنه ثوري: السماح للناشرين بحساب ذاكرة التخزين المؤقت (KV) للوثائق مسبقًا، مما يوفر لكل وكيل فرصة تحميلها وتجاوز خطوة التحضير. التجارب أظهرت أن هذه الطريقة تعمل بدقة 100%، حيث يتم مطابقة النتائج بين الذاكرة المحسوبة مسبقًا ونتائج التحضير من الصفر، مما يعني أنه لن تكون هناك أي تكاليف إضافية على الدقة.

على سبيل المثال، أظهرت دراسات على نموذج Qwen3-4B أن إعادة استخدام هذه الذاكرة يمكن أن تكون أقل تكلفة بـ 9-50 مرة مقارنة بمرحلة التحضير، ويزداد هذا الفرق مع طول الوثيقة. تخيل أنك تستطيع تقديم وثيقة تحتوي على 3774 رمز إلى 80 مليون وكيل بتكلفة تعادل $1.5 مليون للتحضير من جديد، بينما باستخدام التخزين المؤقت المسبق، لن يتجاوز الأمر $30,000!

ومع ذلك، أين ستتم استضافة هذه الذاكرة؟ شحنها يعد مشكلة، لأن هذه الذاكرة غير قابلة للضغط تقريبًا، لذا فإن تكلفة تحميل المحتوى تفوق ما يتم توفيره. الحل هو استضافتها من جانب المزود، تمامًا كما تعمل أنظمة التخزين المؤقت في الإنتاج، مما يلغي تكاليف التحميل بالكامل. إن الفائدة المالية المتوقعة هائلة، حيث يمكن أن تصل إلى ملايين الدولارات للوثائق المشهورة.

تبقى بعض المشكلات المفتوحة مثل ضغط ذاكرة التخزين المؤقت بشكل بدون فقدان البيانات وكيفية إنشاء طبقة دفع بين الأطراف المعنية، لكن الطريق يبدو واضحًا. هل أنتم مستعدون لنقاش هذا التطور المثير؟