في عالم الحوسبة العالية الأداء، يُعتبر الأداء الفعال من الأمور الجوهرية. وقد جاءت NVIDIA بمفاجأة مذهلة في معالجها الجديد Blackwell Ultra (B300)، حيث تمت مراجعة تفاصيل الأداء بطريقة تعيد تعريف سرعة معالجة البيانات. تم تقليص مستوى تمرير متجهات FP64 إلى حوالي 1.3 TFLOPS لكل معالج، وهو ما يمثل انخفاضاً كبيراً بنحو 30 ضعفاً مقارنةً بالجيل السابق B200. لكن، كيف يمكن أن تنجح في تحقيق الأداء المطلوب رغم هذه القيود؟
من خلال نظام "Ozaki Scheme II"، استطاعت NVIDIA استعادة مستوى أداء يعادل FP64 بواسطة توجيه العمليات الرياضية الكثيفة عبر نوى التنسور FP8 مع إعادة بناء تعتمد على قواسم صينية مجزأة. تُعتبر هذه الورقة جزءاً من سلسلتها التي تغطي أيضاً عمليات GEMM ومجموعة من العمليات الرياضية الأخرى، حيث تضيف هذه المجلة الجديدة تقنية FFT ثلاثي الأبعاد إلى أدواتها.
تستخدم هذه الطريقة الجديدة "Ozaki-Bailey FFT" نهج بايلي عبر تقسيم الخطوات الست، مما يجعل أداء FFT ثلاثية الأبعاد قابلاً للتطبيق باستخدام النوى المختلفة. ويُعتبر العامل الداخلي الصغير المستخدم هو k ~ √N، مما يساعد على وضع نواة معالجة تحسن الأداء بصورة كبيرة. يقسم إعادة البناء في مرحلة Garner إلى مرحلتين: المرحلة الأولى تتضمن المنتجات الداخلية على نوى FP8 وINT8، تستغرق حوالي ملي ثانية واحدة لمعالجة 1024^3 على معالج B300.
تقوم المرحلة الثانية بتقليل المخرجات لكل عنصر. ومن الجدير بالذكر أن الرياضيات الكاملة لبعض التعديلات تظل دقيقة على مستوى FP64، مما يجعل من الممكن إنجاز عمليات FFT بكفاءة عالية دون فقدان الدقة.
إذا ثبتت فعالية هذه الطرق في الممارسة، فسوف يصبح المعالج B300 مطلوبًا للغاية كأداة معالجة FFT كاملة الدقة، مما يحفز على تطوير مكتبة libKulisch وجملة من الاختبارات اللازمة لتأمين المجال.
ثورة FP8: كيف تجعل NVIDIA B300 FFT يأتي إلى الحياة التي يتوق إليها العلماء!
تعرف على كيفية تحقيق معالج NVIDIA B300 لفعل غير متوقع: توفير أداء FFT بكفاءة عالية من خلال تقنيات مبتكرة. انطلق معنا لاستكشاف هذا التطور المذهل في عالم الحوسبة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
