في عالم الذكاء الاصطناعي المتسارع، تواجه أنظمة تقديم نماذج اللغة الكبيرة (LLMs) تحديًا رئيسيًا يتمثل في التوتر بين أهداف مستوى الخدمة (SLOs) الصارمة وموارد الذاكرة المحدودة في وحدات معالجة الرسوميات (GPUs). عادةً، عندما تتجاوز معدلات الطلب المرتفعة ميزانية الذاكرة المؤقتة (KV cache)، تتعرض أنظمة الاستنتاج لمشاكل كبيرة، مثل ما يعرف بعرقلة رأس الصف (HOL blocking).

لذا في خطوة رائدة، تم تقديم نظام SuperInfer، الذي تم تصميمه خصيصًا للعمل مع رقاقات السوبر الحديثة مثل NVIDIA GH200. يعتمد هذا النظام الجديد على بنية معمارية متكاملة تجمع بين وحدتي المعالجة المركزية (CPUs) ووحدات معالجة الرسوميات (GPUs) عبر واجهة NVLink-C2C.

introduces RotaSched، وهو أول جدولة دورية مدركة للأداء، يقوم بتدوير الطلبات للحفاظ على استجابة النظام بشكل فعال على الرقائق الفائقة، بينما يعمل DuplexKV كآلة دوران محسّنة تسمح بنقل البيانات بشكل مزدوج عبر NVLink-C2C.

أظهرت التقييمات على GH200 باستخدام نماذج وبيانات متعددة أن SuperInfer يزيد من معدلات تحقيق الأهداف الزمنية (TTFT) بنسبة تصل إلى 74.7%، مع الحفاظ على أداء مماثل في الأهداف الزمنية ما بين الرموز (TBT) والإنتاجية، مما يثبت أن دمج الجدولة المدركة للأداء مع تصميم الذاكرة يمكن أن يفتح آفاق جديدة لقدرات الرقائق الفائقة في تقديم نماذج اللغة الكبيرة.

ويمكنكم الاطلاع على الكود المصدري عبر هذا الرابط: https://github.com/Supercomputing-System-AI-Lab/SuperInfer.