في ظل التطورات المستمرة في [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) (Large Language [Models](/tag/models))، أصبحت [تكاليف](/tag/تكاليف) [الذاكرة](/tag/الذاكرة) والتواصل لتخزين [الذاكرة](/tag/الذاكرة) الرئيسية ([KV Cache](/tag/kv-cache)) تمثل تحدياً كبيراً خاصة في عمليات [الاستدلال](/tag/الاستدلال) [عبر](/tag/عبر) عدة [وحدات معالجة الرسوميات](/tag/وحدات-معالجة-الرسوميات) ([GPUs](/tag/gpus)) أو عدة عقد. وعندما تتبنى البنية [المعمارية](/tag/المعمارية) نمط الخبراء المتنوع ([Mixture of Experts](/tag/mixture-of-experts))، فإنها تبسط عمليات [الحساب](/tag/الحساب) [عبر](/tag/عبر) تقليل الأحمال الحسابية، لكن تظل [خزانات](/tag/خزانات) الـ KV المعنية كثيفة ومتزامنة عالمياً، مما يؤدي إلى أعباء إضافية كبيرة.

ولمعالجة هذه المشكلة، نقدم لكم **PiKV**، وهو إطار [عمل](/tag/عمل) لتخزين **KV Cache** مصمم خصيصاً لبنية [نماذج الخبراء](/tag/[نماذج](/tag/نماذج)-الخبراء) المتنوعة. يعتمد [PiKV](/tag/pikv) على [تقنية](/tag/تقنية) **تخزين KV الشاردي بين الخبراء (Expert-sharded KV storage)** لتوزيع الخزانات [عبر](/tag/عبر) وحدات الـ GPUs، ويستخدم **توجيه [PiKV](/tag/pikv) ([PiKV](/tag/pikv) routing)** لتقليل الوصول من الرموز إلى الـ KV، مع [تقنية](/tag/تقنية) **جدولة [PiKV](/tag/pikv) ([PiKV](/tag/pikv) Scheduling)** التي تحتفظ بشكل ملائم بالسجلات ذات الصلة بالاستعلامات.

بالإضافة إلى ذلك، يدمج [PiKV](/tag/pikv) وحدات **ضغط [PiKV](/tag/pikv) ([PiKV](/tag/pikv) Compression)** في [خط أنابيب](/tag/خط-أنابيب) [التخزين](/tag/التخزين) لتسريع [الأداء](/tag/الأداء) وتقليل استهلاك [الذاكرة](/tag/الذاكرة).

الجدير بالذكر، أن عدم تواجد [PiKV](/tag/pikv) كمنتج نهائي، حيث أنه متاح الآن كمكتبة برمجية مفتوحة المصدر [عبر](/tag/عبر) [رابط PiKV على GitHub](https://github.com/NoakLiu/PiKV). يتطلع [PiKV](/tag/pikv) لأن يصبح نظاماً متكاملاً لإدارة [الذاكرة](/tag/الذاكرة) لخزانات KV في بنى [نماذج الخبراء](/tag/[نماذج](/tag/نماذج)-الخبراء) المتنوعة، وبالتالي فتح آفاق جديدة في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي).