بولار إكسبريس: ثورة في حسابات المصفوفات ودورها الاستثنائي في خوارزميات الميون

لطالما كان حساب التفكيك القطبي للمصفوفات (Polar Decomposition) إحدى القضايا المعقدة التي تدرس في مجال التحليل العددي لعقود. ومع ظهور خوارزمية الميون (Muon Optimizer) المستخدمة في تدريب الشبكات العصبية العميقة، بات هذا الموضوع ذا أهمية متزايدة. فاحتياجات التدريب في مجال التعلم العميق تُظهر تباينًا واضحًا عن الإعدادات التقليدية؛ فهناك رغبة قوية في الحصول على خوارزميات صديقة لوحدات معالجة الرسوميات (GPUs) تركز على الأداء العالي أكثر من الدقة المطلقة.

تقدم تقنية بولار إكسبريس، والتي تمثل طريقة جديدة لحساب التفكيك القطبي، حلاً مبتكرًا يُسهم في تحسين أداء المهام المعقدة. مستلهمة من الأعمال السابقة لعلماء مثل تشن وتشاو وناكاتسوكاسا وفروند، تتولى بولار إكسبريس تعديل قاعدة التحديث في كل تكرار عبر حل مشكلة تحسين متناهية الصغر.

لقد أثبتنا نظريًا أن هذه الاستراتيجية تقلل من الخطأ في أسوأ الحالات، مما يُساعد بولار إكسبريس على التقارب بأسرع ما يمكن، سواء في التكرارات الأولية أو على المدى البعيد. بالإضافة إلى ذلك، نعالج قضايا الدقة المحدودة، مما يجعل استخدام هذه الطريقة عمليًا في تنسيق البفلوت 16 (bfloat16).

عند دمجها مع خوارزمية الميون، يُظهر أسلوبنا تحسينات ملحوظة في خسارة التحقق للنموذج GPT-2، المدرب على واحد إلى عشرة مليارات رمز من مجموعة بيانات FineWeb، متفوقًا على البدائل الحديثة عبر مجموعة من معدلات التعلم.

بولار إكسبريس: ثورة في حسابات المصفوفات ودورها الاستثنائي في خوارزميات الميون

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

تحقيق أقصى كفاءة للأنظمة والأحمال على منصة NVIDIA GB200 NVL72 باستخدام جدولة Slurm الثورية!

جنون 'العفاريت' في ChatGPT: ما الذي يحير مستخدميه في الصين؟

كيف أعادت الأسطورة (Mythos) من أنثروبك تشكيل نهج فايرفوكس نحو الأمن السيبراني؟