في عالم الذكاء الاصطناعي، تبرز نماذج Mixture-of-Experts (MoE) كأحد الحلول المتقدمة التي تهدف لتحسين الأداء والفعالية في معالجة البيانات. ومع ذلك، فإن نشر هذه النماذج محليًا غالبًا ما يواجه تحديات كبيرة مقارنةً بالأداء المتميز الذي يتم تحقيقه في بيئات السحابة.

حدد الباحثون أربعة فجوات رئيسية تؤثر على أداء الاستدلال المحلي باستخدام نماذج MoE، وهي: الاعتماد على نماذج ذات سعة منخفضة (مثل: النماذج المضغوطة أو الموجهة)، عدم القدرة على تحقيق زمن انتقال للتعبئة (TTFT) يبلغ 30 ثانية مع إدخالات طويلة، انخفاض معدل الإنتاجية في فك التشفير (أقل من 20 رمزًا في الثانية)، وسوء الأداء تحت ظروف الازدحام.

للمواجهة، قدمنا نظامًا هجينًا يجمع بين وحدات المعالجة المركزية (CPU) ووحدات معالجة الرسوميات (GPU) لتحقيق معايير جودة الخدمة السحابية. يتضمن هذا النظام عدة تقنيات مبتكرة:
1. **تحميل تدفق التعبئة (SLP)**، الذي يزيد من معدل إنتاجية التعبئة ليصل إلى 1200 رمز في الثانية، مما يسمح بمعالجة 32 ألف طلب في غضون 30 ثانية.
2. **تحميل التعبئة الموزع (DSLP)** مع استخدام تقنية SmallEP لتوازي الخبراء، ليصل الإنتاج إلى 1800 رمز في الثانية و45 ألف طلب في 30 ثانية عند استخدام بطاقتين RTX 5090.
3. **فك الارتباط في أداء التعبئة وفك التشفير** مع تقنيات عدم النسخ وتحسينات على واجهات التشغيل، مما يحسن الأداء العام مع زيادة طفيفة جداً في زمن الاستجابة.
4. **تحسين AVX-512** ليوفر استنتاجًا محسّنًا على وحدات المعالجة المركزية مع تخفيض زمن الاستجابة بمعدل 4-5 مرات.
5. **توازي المعالجة الدقيقة على CPU**، الذي يحقق إنتاجية تصل إلى 28 رمز في الثانية.

تبين التقييمات أن نظامنا الجديد يحقق جودة خدمة عالية لنماذج MoE الرائدة على منصات CPU-GPU الاستهلاكية، ممهدًا الطريق لنشر محلي يضمن فعالية ودقة الأداء دون حاجة للبنية التحتية لمراكز البيانات. إن الابتكارات في هذا المجال تحدث تغييرًا جذريًا في كيفية تطوير واستخدام نماذج الذكاء الاصطناعي على مستوى أكبر.

ما رأيكم في هذا التطور المذهل؟ هل تعتقدون أن أنظمة مثل هذه ستغير مستقبل نشر الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.