أحدثت إنفيديا (NVIDIA) ضجة كبيرة في مجال الذكاء الاصطناعي بإعلانها عن منهجية جديدة للتدريب المسبق تعتمد على تقنية NVFP4، والتي تستخدم تنسيق الميكروسكلينج. هذه الطريقة تجمع بين طبقات BF16 الانتقائية، وتحويلات هادامارد العشوائية بحجم 16×16 على مدخلات Wgrad، وتدرجات الوزن في بعدين، بالإضافة إلى استخدام التقريب العشوائي على التدرجات.

تم اختبار هذه المنهجية الجديدة على Mamba-Transformer هجين يحتوي على 12 مليار بارامتر، حيث تم تدريبه على مجموعة بيانات ضخمة تضم 10 تريليونات كلمة. وهذا يجعل هذه العملية واحدة من أطول تجارب التدريب المسبق التي تم توثيقها علنًا باستخدام تقنية 4-بت.

المثير في هذه التقنية هو أن دقة النتائج التي تحققت كانت قريبة جداً من دقة المفاتيح التقليدية، حيث سجلت 62.58% مقارنةً بـ 62.62% في معيار MMLU-Pro. هذه النتائج تدل على نجاح NVFP4 في تقديم أداء متميز دون التضحية بكفاءة المساحة.

تعتبر هذه التطورات خطوة هائلة نحو تحسين النماذج اللغوية في الذكاء الاصطناعي وتوسيع القدرات الحاسوبية باستخدام تقنيات حديثة.

ما رأيكم في هذه التطورات الثورية؟ شاركونا في التعليقات!