في عالم الذكاء الاصطناعي، يعتبر ضغط النماذج (Model Compression) أحد الحلول الأساسية التي تسهم في تقديم أداء أفضل مع تقليل الاستهلاك الحاسوبي. ومن بين التقنيات الرائجة، تبرز تقنية ضغط ما بعد التدريب (Post Training Quantization - PTQ)؛ ورغم فوائدها، إلا أنها غالباً ما تتسبب في ظاهرة معقدة تعرف بـ'الخطأ المنخفض، الفقد العالي'، والتي تسبب تحديات كبيرة في أداء النماذج.

السبب الجذري وراء هذا التحدي يكمن في مصفوفة هيسين (Hessian Matrix) لنموذج فقدان النماذج الكبيرة، حيث تكون بعض الاتجاهات شديدة الانحناء حساسة جداً للتغيرات. لمواجهة هذه المشكلة، تم تقديم خوارزم HeRo-Q، والذي يعني "الكواتشة القوية بالاستناد إلى هيسين".

خوارزم HeRo-Q يتيح استخدام مصفوفة دوران وضغط خفيفة قابلة للتعلم قبل عملية الكواتشة، مما يؤثر إيجابياً على نماذج فقدان الكواتشة. هذا الإطار المشترك يعيد تشكيل مشهد فقدان الكواتشة من خلال تقليل أكبر قيمة ذات مغزى لهيسين، مما يزيد من متانة النماذج ضد الضوضاء الناتجة عن الكواتشة.

ما يميز HeRo-Q هو أنه لا يحتاج إلى تعديلات معمارية، كما أنه يأتي بتكاليف حوسبة ضئيلة، مما يجعله خياراً جذاباً للمطورين. تجارب على نماذج Llama وQwen أظهرت تفوق HeRo-Q على طرق أخرى مثل GPTQ وAWQ وSpinQuant. حيث استطاع تحقيق أداء ممتاز تحت إعدادات W4A8 القياسية، بالإضافة إلى التميز في سيناريوهات الكواتشة المنخفضة جداً W3A16، حيث زادت دقة نموذج GSM8K إلى 70.15%، وتجنبت الأزمات المنطقية التي تتكرر في حالات الكواتشة الشديدة.

في الختام، يمكن القول إن خوارزم HeRo-Q يمثل تطوراً رئيسياً في مجال ضغط النماذج، مما يوفر سبيلاً فعّالاً لتحسين دقة النماذج مع تقليل حجم الضوضاء وضمان الأداء العالي.