أصبح التخزين المؤقت للمفاتيح والقيم (KV caching) أداة أساسية في خدمات نماذج اللغات الضخمة (Large Language Models)، حيث يساعد في تقليل زمن ظهور أول رمز (Time to First Token - TTFT) عن طريق تجنب العمليات الزائدة في الطلبات التي تتشارك في بادئات معينة، مثل نظام التوجيه. ومع ذلك، تواجه أنظمة التخزين التقليدية مشكلة عدم قدرة الذاكرة المحلية (GPU) على استيعاب الكم المتزايد من التخزين المؤقت، مما يدفع البعض للاحتفاظ بذاكرة KV في تجمعات ذاكرة DRAM البعيدة، مما يزيد من تكاليف واحتياجات البنية التحتية.

في هذا السياق، يقدم الباحثون نهجًا جديدًا في ورقتهم العلمية، حيث يستعرضون مفهوم “ObjectCache”، الذي يتمحور حول تخزين البيانات في خدمات التخزين السحابية المتوافقة مع S3، مما يجعل سعة التخزين ليست عقبة، وفي ذات الوقت يقلل من تأثيرها على TTFT. يعتمد ObjectCache على تصميم مشترك لبروتوكولات التخزين وجدول نقل البيانات، بحيث يتم تسليم بيانات التخزين المؤقت بالترتيب الذي تستخدمه وحدة معالجة الرسومات (GPU)، مما يسهل تداخل نقل البيانات مع العمليات الحسابية داخل الطلبات المتزامنة.

أظهرت التجارب على مجموعة RoCE بسرعة 100 جيجابت في الثانية، و باستخدام مكتبة NIXL للذكاء الاصطناعي، أن ObjectCache يضيف فقط 5.6% من الزمن لوحدات DRAM المحلية عندما يتم استخدام 64K من سياقات البيانات، بينما في حال استخدام 4K من السياقات، كانت الإضافات تتراوح بين 56 و75 ميلي ثانية. وبفضل الجدولة الذكية للشبكة، تقلل تقنية ObjectCache زمن TTFT بشكل ملحوظ مقارنة بطرق تقاسم النطاق الترددي العادي.

إن هذا البحث يمثل خطوة مثيرة نحو تحسين كفاءة أنظمة الذكاء الاصطناعي وتقديم حلول مبتكرة يمكن أن تغير من طريقة تعاملنا مع البيانات في السياقات المختلفة. فما رأيكم في هذه التكنولوجيا الجديدة؟ هل تعتقدون أنها ستحدث ثورة في مجال الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!