أحدثت [إنفيديا](/tag/إنفيديا) ([NVIDIA](/tag/nvidia)) ضجة كبيرة في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) بإعلانها عن منهجية جديدة للتدريب المسبق تعتمد على [تقنية](/tag/تقنية) NVFP4، والتي تستخدم [تنسيق](/tag/تنسيق) الميكروسكلينج. هذه الطريقة تجمع بين طبقات BF16 الانتقائية، وتحويلات هادامارد العشوائية بحجم 16×16 على مدخلات Wgrad، وتدرجات الوزن في بعدين، بالإضافة إلى استخدام التقريب العشوائي على [التدرجات](/tag/التدرجات).

تم اختبار هذه المنهجية الجديدة على [Mamba](/tag/mamba)-[Transformer](/tag/transformer) [هجين](/tag/هجين) يحتوي على 12 مليار بارامتر، حيث تم تدريبه على [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) ضخمة تضم 10 تريليونات كلمة. وهذا يجعل هذه [العملية](/tag/العملية) واحدة من أطول [تجارب](/tag/تجارب) [التدريب المسبق](/tag/[التدريب](/tag/التدريب)-المسبق) التي تم توثيقها علنًا باستخدام [تقنية](/tag/تقنية) [4-بت](/tag/4-بت).

المثير في هذه [التقنية](/tag/التقنية) هو أن [دقة النتائج](/tag/[دقة](/tag/دقة)-النتائج) التي تحققت كانت قريبة جداً من [دقة](/tag/دقة) المفاتيح التقليدية، حيث سجلت 62.58% مقارنةً بـ 62.62% في معيار MMLU-Pro. هذه النتائج تدل على [نجاح](/tag/نجاح) [NVFP4](/tag/nvfp4) في تقديم [أداء](/tag/أداء) متميز دون التضحية بكفاءة المساحة.

تعتبر هذه التطورات خطوة هائلة [نحو](/tag/نحو) [تحسين النماذج](/tag/[تحسين](/tag/تحسين)-[النماذج](/tag/النماذج)) اللغوية في [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) وتوسيع القدرات الحاسوبية باستخدام [تقنيات حديثة](/tag/[تقنيات](/tag/تقنيات)-حديثة).

ما رأيكم في هذه التطورات الثورية؟ شاركونا في [التعليقات](/tag/التعليقات)!