تحفيز الجيل القادم من المسرعات بالمرونة في أساليب تصغير تفعيل الأنماط (N:M)

في عالم الذكاء الاصطناعي، تتزايد الحاجة إلى كفاءة استدلال نماذج اللغات الضخمة (LLM) بسرعة، مما يسلط الضوء على أهمية تقنيات تصغير التفعيل. على الرغم من أن تقنيات التصغير شبه الهيكلية (N:M) قد أثبتت جدواها مع الأوزان، إلا أن تطبيقها في تصفية التفعيل لا يزال مجالاً لم ينكشف عن إمكاناته الكاملة. في هذا العمل، نقدم تحليلًا شاملًا لأساليب تصغير تفعيل الأنماط (N:M) بعد التدريب على نماذج اللغات الضخمة.

على مدار عدة نماذج، نوضح كيف أن تصغير التفعيلات يمكن أن يحافظ على قدرات التحليل والتوليد بشكل أفضل مقارنةً مع تصفية الأوزان، عند مستويات فرز متكافئة. كما نقوم بتقييم تقنيات تخفيف الأخطاء الخفيفة وسهلة التركيب، بالإضافة إلى معايير التصغير، مما يضمن قوة الأداء على الأجهزة مع الحد الأدنى من المعايرة.

نستكشف أيضًا أنماط التصغير غير التقليدية التي تتجاوز معدل NVIDIA القياسي 2:4، لنجد أن النمط 16:32 يحقق أداءً قريبًا من حدة التصرف غير الهيكلي. ومع ذلك، فإننا نركز على النمط 8:16 كمرشح متفوق نظرًا للتوازن بين المرونة وتعقيد تطبيق الأجهزة. تقدم نتائجنا طرقاً عملية فعالة لتقليص التفعيل وتحفز تطوير أجهزة المستقبل لدعم أنماط تصغير أكثر مرونة. إن كود البحث متاح عبر هذا الرابط: [https://anonymous.4open.science/r/Structured-Sparse-Activations-Inference-EC3C/README.md]. ما رأيكم في هذه الابتكارات؟ شاركونا أفكاركم في التعليقات!

تحفيز الجيل القادم من المسرعات بالمرونة في أساليب تصغير تفعيل الأنماط (N:M)

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

هل تتعذر عليك الحصول على جهاز Mac Mini؟ تعرف على السبب وراء التأخير في التوريد!

هل يحدد OpenAI مستقبل الأمن السيبراني؟ الكشف عن أداة GPT-5.5 Cyber المبتكرة!

إيلون ماسك يكشف السر: كيف قامت xAI بتدريب Grok باستخدام نماذج OpenAI!