في عالم الذكاء الاصطناعي، تحتاج النماذج الكبيرة مثل النماذج اللغوية الكبيرة (LLMs) إلى تقنيات ضغط متقدمة لضمان الأداء الفعال. هنا تبرز تقنية DuQuant++ كنموذج مبتكر يعمل على تحسين عملية الميكرو سكاليينج من خلال التعامل الفعال مع العناصر الاستثنائية التي تؤثر على دقة ضغط البيانات. يعتمد تنسيق الـ MXFP4 على تقسيم المشغلات إلى كتل من 32 عنصرًا، مما يوفر دعمًا هائلًا من الأجهزة مثل أنوية Tensor Core في NVIDIA Blackwell.

تواجه هذه التقنية مشكلة فريدة تتمثل في أن وجود عنصر استثنائي واحد يمكن أن يرفع المقياس المشترك للكتلة، مما يضغط النطاق الديناميكي الفعّال للعناصر المتبقية ويزيد من خطأ الضغط. ومع ذلك، تبني DuQuant++ على النجاح السابق لنموذج DuQuant من خلال تطبيق عمليات التحويل الدقيقة المستندة إلى حسابات وعي العناصر الاستثنائية، موائمة حجم الكتل الدورانية مع حجم مجموعة الميكرو سكاليينج.

تتيح هذه التقنية الحصول على مقياس مستقل لكل مجموعة، مما يجعل المشاكل السابقة المتعلقة بتباين الكتل الزائدة غير ذات صلة. بالتالي، يتمكن DuQuant++ من تبسيط العملية بشكل كبير عبر عملية تحويل واحدة، مما يقلل التكاليف بشكل كبير بينما يحسن التوزيع الوزن.

أظهرت التجارب المكثفة على مجموعة LLaMA-3 تحت ضغط MXFP4 W4A4 أن DuQuant++ يحقق أداءً متقدماً يدعو للإعجاب. لمعرفة المزيد عن الكود والمعلومات التقنية، يمكنكم زيارة [موقع GitHub](https://github.com/Hsu1023/DuQuant-v2). هل تعتقد أن هذه الابتكارات ستغير من ممارسات ضغط البيانات في المستقبل؟ شاركونا آراءكم!