تشهد تقنية نماذج اللغات الضخمة (LLMs) تطوراً ملحوظاً بدخولهما في مجالات حساسة من حيث الزمن والتكاليف، مما يجعل كفاءة الاستنتاج تحدياً أساسياً. بينما تظل وحدات معالجة الرسوم (GPUs) المسيطرة في هذا المجال، فإن هناك زيادة في عدد المسرعات الذكية التي تعد بتقديم مزايا جديدة لأداء LLMs. لكن السؤال يبقى: في أي ظروف تتجاوز هذه المسرعات أداء GPU؟

تقدم الأنظمة الجديدة لتقييم الاستنتاج تقسيماً لتجربة التنفيذ إلى مرحلتين: "التعبئة المسبقة" (Prefill) و"الترميز" (Decode)، كل منهما تحمل خصائص حسابية وتأخيرات زمنية مميزة. تم القياس عادة باستخدام زمن الحصول على أول رمز (TTFT) وزمن لكل رمز ناتج (TPOT).

تشير دراسة جديدة إلى تقييم مراعٍ لأساليب الأداء لنماذج LLM عبر وحدات GPU ومسرعات الذكاء الاصطناعي الناشئة باستخدام نموذج شائع، Llama2-7B. من خلال قياس الأداء على حدة لكل من مرحلتي التعبئة والترميز، تبرز النتائج أن المزايا لكل مسرع تختلف حسب المرحلة والمعيار.

تظهر النتائج أن وحدات GPU تتفوق دائماً في مرحلة التعبئة، حيث تحتاج إلى حسابات مكثفة. ومع ذلك، حققت GroqRack انخفاضاً ملحوظاً في TPOT خلال مرحلة الترميز، على الرغم من عدم دعم الدُفعات حالياً. ولكن مع زيادة حجم الدُفعات، تستعيد وحدات GPU تفوقها في سرعة الترميز.

تعزز هذه findings الفهم العميق لتفاصيل الأداء المرتبطة بكل منصة وتبرز نقاط القوة الفريدة حسب كل مرحلة. كما تختتم الدراسة بتحليل تفكيك الأداء بين المسرعات المختلفة، لتحديد مكاسب الأداء والشروط اللازمة لتحقيقها.

هل تعتقد أن المسرعات الذكية يمكن أن تحل محل GPU بالكامل في المستقبل؟ شاركونا آراءكم في التعليقات!