في عالم الخدمات المتطورة لنماذج اللغات الضخمة (Large Language Models)، يبرز ابتكار CrossPool كحل ثوري للتحديات التي تواجه نماذج Mixture of Experts (MoE). كثيرًا ما تواجه هذه النماذج مشكلة كونها باردة، حيث تتلقى طلبات نادرة مما يؤدي إلى استهلاك غير فعال لذاكرة GPU. لماذا يحدث ذلك؟ لأن النماذج الباردة لا تصل إلى أقصى طاقة طلب لذاكرة KV-cache في نفس الوقت، مما يزيد من استهلاك الذاكرة تحت ظروف الطلب السيئة.
حل CrossPool يتلخص في فصل الأوزان وذاكرة KV-cache إلى مجموعتين منفصلتين داخل الذاكرة، حيث يتم تجميع أوزان النماذج الباردة في مجموعة واحدة، بينما تحتفظ مجموعة KV-cache بخدمة الطلبات النشطة بشكل ديناميكي. هذه الطريقة تُعزز من الطاقة الذاكرية وتُحسن من أداء الذاكرة، مما يسمح بتقديم طلبات سياقية طويلة بشكل فعال.
إحدى أهم ميزات CrossPool هي استخدام مخطط ذاكرة KV وخطة افتراضية تعتمد على إطار زمني، مما يقلل من وقت الانتقال بين معالجات CPU وGPU. بفضل هذا الابتكار، استطاع CrossPool outperform الأنظمة الحالية المبنية على KV-cache التقليدية، مسجلاً تخفيضات تصل حتى 10.4 مرة في زمن الاستجابة الذي يُعرف باسم P99 TBT.
الابتكار في CrossPool يمثل نقلة نوعية في كيفية معالجة الطلبات وتعزيز كفاءة الأداء في بيئات الـ MoE، مما يُعد خطوة كبيرة نحو تحسين كيفية استجابة الخدمات لنماذج اللغات الضخمة.
تعرف على CrossPool: الابتكار الثوري في تقديم نماذج MoE الباردة بفاعلية
يقدم CrossPool حلاً مبتكرًا لمشكلة الذاكرة في نماذج MoE الباردة، من خلال فصل الأوزان وذاكرة KV-cache، مما يعزز كفاءة الأداء. اكتشف كيف يُمكن أن يُحدث هذا التطور نقلة نوعية في خدمات LLM.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
