أصبح دمج استراتيجيات التجميع المختلط (Mixed Batching) أداة مركزية تعزز من كفاءة الأداء في استدلال نماذج اللغات الضخمة (LLM)، حيث يتم ذلك من خلال دمج مراحل الملء (prefill) والترميز (decode) في دفعة واحدة. ومع ذلك، كشفت تجارب محكمة قادها باحثون مؤخرًا أن هناك تأثيرات سلبية بسبب تداخل عملية الملء والترميز تزيد من التكلفة على مستوى كل خطوة في طريقة التجميع المختلط.
على الأجهزة ذات عرض النطاق العالي مثل H200 (4.8 تيرابايت/ثانية)، يبدأ هذا التأثير السلبي بالظهور عندما تشكل رموز الترميز أكثر من 80% من الدفعة. أما على أجهزة RTX PRO 6000، التي تعاني من محدودية في عرض النطاق (1.792 تيرابايت/ثانية)، فينخفض هذا الحد إلى 20%.
تشير النتائج إلى ضرورة اختيار الاستراتيجية الأمثل بين التجميع المختلط والتجميع الحصري (Exclusive Batching) اعتمادًا على عرض النطاق لبطاقات الرسوم، وحجم النموذج، وتركيبة العمل. وقد تم صياغة شروط محددة لتوقع النقاط الحرجة في أداء التجميع الحصري مقابل التجميع المختلط، تمثلت في توصيلات دقيقة لأساليب التبديل الآمن في الذاكرة.
توفر الطريقة المثلى للتجميع الحصري زيادة في الإنتاجية تصل إلى 41.9% على أجهزة الرسوم ذات عرض النطاق المحدود، بينما تظل استراتيجية التجميع المختلط متفوقة على الأجهزة ذات الأداء العالي مع النماذج الأكبر. ويقدم النظام الهجين EB+ آلية ذكية لتبديل الديناميكي بين التجميع الحصري والتجميع المختلط، مما يوفر أفضل أداء في كل حالة مرور حركة مرور غير ثابتة.
تعتبر هذه النتائج بمثابة فتح جديد في مجال الذكاء الاصطناعي، حيث تعزز من قدرة المؤسسات على استخدام نماذج الذكاء الاصطناعي بشكل أكثر كفاءة.
ما هو رأيك في هذه الاستراتيجيات الجديدة؟ هل تعتقد أنها ستحدث تحولاً جذريًا في كيفية استخدام نماذج الذكاء الاصطناعي؟ شارك برأيك في التعليقات!
تحقيق أقصى استفادة من نماذج اللغات الضخمة: استراتيجيات جديدة لتحسين الأداء
أظهر بحث جديد أن الدمج بين استراتيجيات التجميع المتنوعة يمكن أن يحسّن بشكل كبير من أداء نماذج اللغات الضخمة. تكشف النتائج عن كيفية الاستفادة من قدرات المعالجة وتحسين الكفاءة بشكل مذهل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
