تسعى تقنية SharQ إلى تغيير الموازنات التقليدية في مجالات الذكاء الاصطناعي والتحميلات الرياضية من خلال ربط بين تقنيتي تخفيض الكثافة (activation sparsity) والتكميم بالصيغة FP4. فبينما نجد أن المعالجات الحديثة تدعم بشكل متزايد استخدام هذه التقنيات، إلا أن الجمع بينهما لتقليل حجم البيانات خلال عملية الاستدلال لا يزال يواجه تحديات ملحوظة.

تتمحور المشكلة حول وجود بيانات خارجة (outliers) في التفاعلات، والتي تعتمد على المدخلات وتؤثر بشكل كبير على دقة التكميم. يطرح النظام الجديد SharQ طريقة مبتكرة من خلال تقديم نموذج تدريبي مجاني يقوم بإنشاء قناع (mask) متكيف مع المدخلات من خلال تحلل كثيف لنموذج التفاعل، مما يعزز دقة الكشف عن القيم الهامة.

بعد تطبيق SharQ، تم اختبار التقنية على نماذج متنوعة مثل Llama-3.1-8B وQwen2.5-7B وأثبتت القدرة على استعادة نسبة 43 إلى 63% من الفجوة في الدقة ما بين NVFP4 وFP16، وهو ما يعد إنجازاً مهماً للأغراض اللغوية وعبر اللغة.

علاوة على ذلك، أثبتت التقنية قدرتها على تحقيق انخفاض يتراوح بين 2.2 إلى 2.4 مرة في فترة الاستجابة مقارنة بـFP16. وعندما تم دمجها مع تقنية SageAttention، تم الحصول على زيادة تصل إلى 1.58 مرة في سرعة توليد الفيديو.

إذا كنت مهتماً بعالم الذكاء الاصطناعي، فليس لديك خيار أفضل من التعرف على ما يمكن أن تقدمه تقنية SharQ في المستقبل. هل أنت مستعد لاستكشاف المزيد؟ شاركونا آراءكم في التعليقات!