في عالم الذكاء الاصطناعي، يعد تحقيق توازن بين الأداء وكفاءة الذاكرة تحديًا مستمرًا، خصوصًا عند التعامل مع النماذج اللغوية العملاقة (LLMs) التي تتطلب معالجة صحية للبيانات. وقد برزت الحاجة إلى تقنيات الكمامة بعد التدريب (Post-training quantization) كأداة ضرورية لضمان تنفيذ النماذج تحت قيود الذاكرة وعرض النطاق الترددي. ومع ذلك، تظل الكمامة منخفضة البت حساسة للغاية تجاه تفوقات التنشيط (activation outliers) والانحناءات غير المتناسقة في الوزن.
تقدم الأساليب الحالية المبنية على عدم التناسق في الكمامة حلولًا لكنها غالبًا ما تعتمد على تحويلات هادامارد العشوائية الثابتة (Fixed Randomized Hadamard Transforms)؛ بينما تعزز هذه الطريقة قوة التحمل في الكمامة، إلا أنها تعجز عن تكييف أساس الدوران وفقًا لمستوى الطبقة أو توزيع المعايرة.
هنا يأتي دور الابتكار الجديد: معالج HARP - معالج الدوران التكيفي المبني على هادامارد. يمثل HARP بديلاً متطورًا يعتمد بنى هرمية هادامارد قابلة للتعلم، مما يسمح بتجميع فائق الدقة دون الاضطرار إلى استخدام أطر ثابتة. يقوم HARP بتقديم كل دوران كناتج لمراحل متقاطعة تشبه الفراشة، ويدعم قياسات غير ثنائية القوة بفضل جداول Mixed-Radix.
يماثل أداء HARP في تقنيات الكمامة بالاستناد إلى بيانات المعايرة، مما يؤهله لتكييف قاعدة الكمامة حسب كل طبقة ومتطلبات النماذج. وفي تجارب تمت عبر نطاقات من 2-4 بت، على نماذج تتراوح بين 1 مليار إلى 70 مليار معلمة، نجح HARP في تحسين أداء الدقة وكفاءة التحقق دون التأثير على سرعة التنفيذ، حيث وصل إلى 128 توكين في الثانية مقارنةً بـ 61 توكين في الثانية في نماذج FP16.
هذا الابتكار قد يغير معايير الأداء في عالم النماذج اللغوية، ويعطي دفعة قوية للبحث والتطوير فيما يتعلق بالتقنيات الذكائية المستقبلية.
ثورة في تقنيات النمذجة: معالج HARP يقدم حلاً مبتكرًا لتحسين دقة الكميات في النماذج اللغوية العملاقة!
معالج HARP يسجل نقلة نوعية في تقنيات الكمامة بعد التدريب، حيث يقدم حلاً ذكيًا لتجاوز تحديات الكميات منخفضة البت. بفضل قدرته على التكيف، يسمح HARP بتحسين الأداء بشكل لافت.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
