في عالم الذكاء الاصطناعي، يعتبر ضغط النماذج (Model Compression) أحد الحلول الأساسية التي تسهم في تقديم أداء أفضل مع تقليل الاستهلاك الحاسوبي. ومن بين التقنيات الرائجة، تبرز تقنية ضغط ما بعد التدريب (Post Training Quantization - PTQ)؛ ورغم فوائدها، إلا أنها غالباً ما تتسبب في ظاهرة معقدة تعرف بـ'الخطأ المنخفض، الفقد العالي'، والتي تسبب تحديات كبيرة في أداء النماذج.
السبب الجذري وراء هذا التحدي يكمن في مصفوفة هيسين (Hessian Matrix) لنموذج فقدان النماذج الكبيرة، حيث تكون بعض الاتجاهات شديدة الانحناء حساسة جداً للتغيرات. لمواجهة هذه المشكلة، تم تقديم خوارزم HeRo-Q، والذي يعني "الكواتشة القوية بالاستناد إلى هيسين".
خوارزم HeRo-Q يتيح استخدام مصفوفة دوران وضغط خفيفة قابلة للتعلم قبل عملية الكواتشة، مما يؤثر إيجابياً على نماذج فقدان الكواتشة. هذا الإطار المشترك يعيد تشكيل مشهد فقدان الكواتشة من خلال تقليل أكبر قيمة ذات مغزى لهيسين، مما يزيد من متانة النماذج ضد الضوضاء الناتجة عن الكواتشة.
ما يميز HeRo-Q هو أنه لا يحتاج إلى تعديلات معمارية، كما أنه يأتي بتكاليف حوسبة ضئيلة، مما يجعله خياراً جذاباً للمطورين. تجارب على نماذج Llama وQwen أظهرت تفوق HeRo-Q على طرق أخرى مثل GPTQ وAWQ وSpinQuant. حيث استطاع تحقيق أداء ممتاز تحت إعدادات W4A8 القياسية، بالإضافة إلى التميز في سيناريوهات الكواتشة المنخفضة جداً W3A16، حيث زادت دقة نموذج GSM8K إلى 70.15%، وتجنبت الأزمات المنطقية التي تتكرر في حالات الكواتشة الشديدة.
في الختام، يمكن القول إن خوارزم HeRo-Q يمثل تطوراً رئيسياً في مجال ضغط النماذج، مما يوفر سبيلاً فعّالاً لتحسين دقة النماذج مع تقليل حجم الضوضاء وضمان الأداء العالي.
ثورة جديدة في ضغط النماذج: HeRo-Q لتحسين دقة التحويل بتقنية الكواتشة المنخفضة
يقدم خوارزم HeRo-Q ثورة في كيفية ضغط النماذج، حيث يتمكن من تقليل الضوضاء الناتجة عن الكواتشة مما يعزز الأداء الكلي للنماذج. هذه الطريقة الجديدة تعيد تشكيل مشهد ضغط النماذج دون الحاجة لتعديلات معمارية مع الحفاظ على الكفاءة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
