في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتسارع، تواجه [أنظمة](/tag/أنظمة) تقديم [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) ([LLMs](/tag/llms)) تحديًا رئيسيًا يتمثل في التوتر بين أهداف مستوى الخدمة (SLOs) الصارمة وموارد [الذاكرة](/tag/الذاكرة) المحدودة في [وحدات معالجة الرسوميات](/tag/وحدات-معالجة-الرسوميات) ([GPUs](/tag/gpus)). عادةً، عندما تتجاوز معدلات الطلب المرتفعة [ميزانية](/tag/ميزانية) [الذاكرة](/tag/الذاكرة) المؤقتة (KV cache)، تتعرض [أنظمة](/tag/أنظمة) [الاستنتاج](/tag/الاستنتاج) لمشاكل كبيرة، مثل ما يعرف بعرقلة رأس الصف (HOL blocking).
لذا في خطوة رائدة، تم تقديم نظام SuperInfer، الذي تم تصميمه خصيصًا للعمل مع رقاقات السوبر الحديثة مثل [NVIDIA](/tag/nvidia) GH200. يعتمد هذا النظام الجديد على بنية [معمارية](/tag/معمارية) متكاملة تجمع بين وحدتي المعالجة المركزية ([CPUs](/tag/cpus)) ووحدات معالجة الرسوميات ([GPUs](/tag/gpus)) [عبر](/tag/عبر) [واجهة](/tag/واجهة) NVLink-C2C.
introduces RotaSched، وهو أول [جدولة](/tag/جدولة) دورية مدركة للأداء، يقوم بتدوير الطلبات للحفاظ على استجابة النظام بشكل فعال على الرقائق الفائقة، بينما يعمل DuplexKV كآلة دوران محسّنة تسمح بنقل [البيانات](/tag/البيانات) بشكل مزدوج [عبر](/tag/عبر) NVLink-C2C.
أظهرت [التقييمات](/tag/التقييمات) على GH200 باستخدام [نماذج](/tag/نماذج) وبيانات متعددة أن [SuperInfer](/tag/superinfer) يزيد من معدلات [تحقيق](/tag/تحقيق) الأهداف الزمنية (TTFT) بنسبة تصل إلى 74.7%، مع الحفاظ على [أداء](/tag/أداء) مماثل في الأهداف الزمنية ما بين الرموز (TBT) والإنتاجية، مما يثبت أن دمج الجدولة المدركة للأداء مع [تصميم](/tag/تصميم) [الذاكرة](/tag/الذاكرة) يمكن أن يفتح آفاق جديدة لقدرات الرقائق الفائقة في تقديم [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة).
ويمكنكم الاطلاع على [الكود](/tag/الكود) المصدري [عبر](/tag/عبر) هذا الرابط: https://github.com/Supercomputing-System-[AI](/tag/ai)-Lab/[SuperInfer](/tag/superinfer).
ثورة جديدة في الذكاء الاصطناعي: نظام SuperInfer لتحسين أداء نماذج اللغة الكبيرة!
استعد لاكتشاف SuperInfer، النظام المبتكر لتحسين استجابة نماذج اللغة الكبيرة (LLMs) على رقاقات السوبر (Superchips). مع تحسينات مذهلة تصل إلى 74.7% في معدلات تحقيق الأهداف الزمنية، يبدو أن المستقبل هنا!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
