يُعد تطوير النظم الجديدة لتلبية احتياجات نماذج اللغات الضخمة (LLMs) من الأمور الحيوية في عالم الذكاء الاصطناعي، حيث تواجه هذه النماذج تحديات مزدوجة تتمثل في تلبية متطلبات مستوى الخدمة (SLOs) الخاصة بالمستخدمين مع تقليل التكاليف التشغيلية.
في هذا السياق، تم تقديم نظام HFX، وهو نظام مبتكر مصمم لتحسين جدولة الطلبات والتوسع المرن عبر نماذج متعددة، مما يضمن تحقيق أهداف الخدمة المتنوعة. يعتمد HFX على جدول زمني (scheduler) يقوم بإجراء تقديرات مسبقة للميزانية وتحديد الأولويات لضمان التوافق مع أهداف الخدمة لكل من الطلبات الجديدة والمعلقة.
كما يتضمن النظام كذلك مُقيِّمًا (scaler) يدعم نقل الأوزان بشكل سريع بين الأجهزة (Device-to-Device)، مما يقلل من زمن التهيئة البارد ويعزز الأداء بشكل عام. بفضل قدرته على دعم كل من النشر المشترك وغير المشترك، يمكن تكييف HFX لتلبية أنماط العمل المتنوعة وظروف السحابة المختلفة.
من خلال تجارب موسعة على أحمال العمل المتعددة المهام، أثبت HFX تحقيق أهداف مستوى الخدمة بشكل أعلى وتخفيض زمن الاستجابة بنسبة تصل إلى 65.82% والتكلفة الناتجة عن استخدام وحدات معالجة الشبكة (NPU) بنسبة تصل إلى 49.81% مقارنةً بالأنظمة الرائدة في المجال.
تُظهر هذه النتائج قوة الأساليب الذكية في جدولة الطلبات والتوسع، مما يوفر إطار عمل موثوقًا للنشر الفعال من حيث التكلفة وفقاً لمتطلبات أهداف الخدمة. هل أنتم مستعدون لاستكشاف إمكانيات HFX؟ شاركونا آراءكم في التعليقات!
HFX: نظام مبتكر لتحسين أداء نماذج الذكاء الاصطناعي مع تلبية متطلبات المستخدم
يقدم HFX نظامًا متقدمًا لخدمة نماذج اللغات الضخمة (LLMs) يعمل على تحقيق توازن بين تلبية أهداف مستوى الخدمة وتقليل التكاليف. من خلال تحسين جدولة الطلبات والتوسع المرن، يحقق HFX كفاءة عالية في الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
