في عالم الذكاء الاصطناعي، تتزايد الحاجة إلى كفاءة استدلال نماذج اللغات الضخمة (LLM) بسرعة، مما يسلط الضوء على أهمية تقنيات تصغير التفعيل. على الرغم من أن تقنيات التصغير شبه الهيكلية (N:M) قد أثبتت جدواها مع الأوزان، إلا أن تطبيقها في تصفية التفعيل لا يزال مجالاً لم ينكشف عن إمكاناته الكاملة. في هذا العمل، نقدم تحليلًا شاملًا لأساليب تصغير تفعيل الأنماط (N:M) بعد التدريب على نماذج اللغات الضخمة.
على مدار عدة نماذج، نوضح كيف أن تصغير التفعيلات يمكن أن يحافظ على قدرات التحليل والتوليد بشكل أفضل مقارنةً مع تصفية الأوزان، عند مستويات فرز متكافئة. كما نقوم بتقييم تقنيات تخفيف الأخطاء الخفيفة وسهلة التركيب، بالإضافة إلى معايير التصغير، مما يضمن قوة الأداء على الأجهزة مع الحد الأدنى من المعايرة.
نستكشف أيضًا أنماط التصغير غير التقليدية التي تتجاوز معدل NVIDIA القياسي 2:4، لنجد أن النمط 16:32 يحقق أداءً قريبًا من حدة التصرف غير الهيكلي. ومع ذلك، فإننا نركز على النمط 8:16 كمرشح متفوق نظرًا للتوازن بين المرونة وتعقيد تطبيق الأجهزة. تقدم نتائجنا طرقاً عملية فعالة لتقليص التفعيل وتحفز تطوير أجهزة المستقبل لدعم أنماط تصغير أكثر مرونة. إن كود البحث متاح عبر هذا الرابط: [https://anonymous.4open.science/r/Structured-Sparse-Activations-Inference-EC3C/README.md]. ما رأيكم في هذه الابتكارات؟ شاركونا أفكاركم في التعليقات!
تحفيز الجيل القادم من المسرعات بالمرونة في أساليب تصغير تفعيل الأنماط (N:M)
تتزايد أهمية تقنيات تصغير تفعيل الأنماط (N:M) لتلبية الطلب على كفاءة نماذج اللغات الضخمة (LLM). تقدم هذه الدراسة تحليلاً شاملاً للأساليب بعد التدريب، موضحةً فوائد الحفاظ على قدرات التوليد الفائقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
