في ظل التطورات المستمرة في [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) (Large Language [Models](/tag/models))، أصبحت [تكاليف](/tag/تكاليف) [الذاكرة](/tag/الذاكرة) والتواصل لتخزين [الذاكرة](/tag/الذاكرة) الرئيسية ([KV Cache](/tag/kv-cache)) تمثل تحدياً كبيراً خاصة في عمليات [الاستدلال](/tag/الاستدلال) [عبر](/tag/عبر) عدة [وحدات معالجة الرسوميات](/tag/وحدات-معالجة-الرسوميات) ([GPUs](/tag/gpus)) أو عدة عقد. وعندما تتبنى البنية [المعمارية](/tag/المعمارية) نمط الخبراء المتنوع ([Mixture of Experts](/tag/mixture-of-experts))، فإنها تبسط عمليات [الحساب](/tag/الحساب) [عبر](/tag/عبر) تقليل الأحمال الحسابية، لكن تظل [خزانات](/tag/خزانات) الـ KV المعنية كثيفة ومتزامنة عالمياً، مما يؤدي إلى أعباء إضافية كبيرة.
ولمعالجة هذه المشكلة، نقدم لكم **PiKV**، وهو إطار [عمل](/tag/عمل) لتخزين **KV Cache** مصمم خصيصاً لبنية [نماذج الخبراء](/tag/[نماذج](/tag/نماذج)-الخبراء) المتنوعة. يعتمد [PiKV](/tag/pikv) على [تقنية](/tag/تقنية) **تخزين KV الشاردي بين الخبراء (Expert-sharded KV storage)** لتوزيع الخزانات [عبر](/tag/عبر) وحدات الـ GPUs، ويستخدم **توجيه [PiKV](/tag/pikv) ([PiKV](/tag/pikv) routing)** لتقليل الوصول من الرموز إلى الـ KV، مع [تقنية](/tag/تقنية) **جدولة [PiKV](/tag/pikv) ([PiKV](/tag/pikv) Scheduling)** التي تحتفظ بشكل ملائم بالسجلات ذات الصلة بالاستعلامات.
بالإضافة إلى ذلك، يدمج [PiKV](/tag/pikv) وحدات **ضغط [PiKV](/tag/pikv) ([PiKV](/tag/pikv) Compression)** في [خط أنابيب](/tag/خط-أنابيب) [التخزين](/tag/التخزين) لتسريع [الأداء](/tag/الأداء) وتقليل استهلاك [الذاكرة](/tag/الذاكرة).
الجدير بالذكر، أن عدم تواجد [PiKV](/tag/pikv) كمنتج نهائي، حيث أنه متاح الآن كمكتبة برمجية مفتوحة المصدر [عبر](/tag/عبر) [رابط PiKV على GitHub](https://github.com/NoakLiu/PiKV). يتطلع [PiKV](/tag/pikv) لأن يصبح نظاماً متكاملاً لإدارة [الذاكرة](/tag/الذاكرة) لخزانات KV في بنى [نماذج الخبراء](/tag/[نماذج](/tag/نماذج)-الخبراء) المتنوعة، وبالتالي فتح آفاق جديدة في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي).
اكتشف PiKV: نظام إدارة تخزين الذاكرة الذكي لنماذج الخبراء المتنوعة!
نظام PiKV يُحدث ثورة في إدارة تخزين الذاكرة لنماذج الخبراء المتنوعة (Mixture of Experts)، حيث يسهم في تحسين الكفاءة وتقليل التكاليف الذاكرية. تعرف على كيفية تحقيق ذلك وأهم ميزاته!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
