أحدثت إنفيديا (NVIDIA) ضجة كبيرة في مجال الذكاء الاصطناعي بإعلانها عن منهجية جديدة للتدريب المسبق تعتمد على تقنية NVFP4، والتي تستخدم تنسيق الميكروسكلينج. هذه الطريقة تجمع بين طبقات BF16 الانتقائية، وتحويلات هادامارد العشوائية بحجم 16×16 على مدخلات Wgrad، وتدرجات الوزن في بعدين، بالإضافة إلى استخدام التقريب العشوائي على التدرجات.
تم اختبار هذه المنهجية الجديدة على Mamba-Transformer هجين يحتوي على 12 مليار بارامتر، حيث تم تدريبه على مجموعة بيانات ضخمة تضم 10 تريليونات كلمة. وهذا يجعل هذه العملية واحدة من أطول تجارب التدريب المسبق التي تم توثيقها علنًا باستخدام تقنية 4-بت.
المثير في هذه التقنية هو أن دقة النتائج التي تحققت كانت قريبة جداً من دقة المفاتيح التقليدية، حيث سجلت 62.58% مقارنةً بـ 62.62% في معيار MMLU-Pro. هذه النتائج تدل على نجاح NVFP4 في تقديم أداء متميز دون التضحية بكفاءة المساحة.
تعتبر هذه التطورات خطوة هائلة نحو تحسين النماذج اللغوية في الذكاء الاصطناعي وتوسيع القدرات الحاسوبية باستخدام تقنيات حديثة.
ما رأيكم في هذه التطورات الثورية؟ شاركونا في التعليقات!
إنفيديا تكشف عن طريقة تدريب مسبق بثلاثة أضعاف الدقة: تقنية NVFP4 المبتكرة!
أعلنت إنفيديا عن إطلاق منهجية تدريب مسبق جديدة بتقنية NVFP4، التي أثبتت فعاليتها على مamba-Transformer هجين يحمل 12 مليار بارامتر. هذه التقنية تعد ثورة في عالم الذكاء الاصطناعي بدقة قريبة من الأساليب التقليدية!
المصدر الأصلي:مارك تيك بوست
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
