لطالما كان حساب التفكيك القطبي للمصفوفات (Polar Decomposition) إحدى القضايا المعقدة التي تدرس في مجال التحليل العددي لعقود. ومع ظهور خوارزمية الميون (Muon Optimizer) المستخدمة في تدريب الشبكات العصبية العميقة، بات هذا الموضوع ذا أهمية متزايدة. فاحتياجات التدريب في مجال التعلم العميق تُظهر تباينًا واضحًا عن الإعدادات التقليدية؛ فهناك رغبة قوية في الحصول على خوارزميات صديقة لوحدات معالجة الرسوميات (GPUs) تركز على الأداء العالي أكثر من الدقة المطلقة.
تقدم تقنية بولار إكسبريس، والتي تمثل طريقة جديدة لحساب التفكيك القطبي، حلاً مبتكرًا يُسهم في تحسين أداء المهام المعقدة. مستلهمة من الأعمال السابقة لعلماء مثل تشن وتشاو وناكاتسوكاسا وفروند، تتولى بولار إكسبريس تعديل قاعدة التحديث في كل تكرار عبر حل مشكلة تحسين متناهية الصغر.
لقد أثبتنا نظريًا أن هذه الاستراتيجية تقلل من الخطأ في أسوأ الحالات، مما يُساعد بولار إكسبريس على التقارب بأسرع ما يمكن، سواء في التكرارات الأولية أو على المدى البعيد. بالإضافة إلى ذلك، نعالج قضايا الدقة المحدودة، مما يجعل استخدام هذه الطريقة عمليًا في تنسيق البفلوت 16 (bfloat16).
عند دمجها مع خوارزمية الميون، يُظهر أسلوبنا تحسينات ملحوظة في خسارة التحقق للنموذج GPT-2، المدرب على واحد إلى عشرة مليارات رمز من مجموعة بيانات FineWeb، متفوقًا على البدائل الحديثة عبر مجموعة من معدلات التعلم.
بولار إكسبريس: ثورة في حسابات المصفوفات ودورها الاستثنائي في خوارزميات الميون
تقديم بولار إكسبريس كطريقة مبتكرة لحساب التفكيك القطبي للمصفوفات (polar decomposition)، والتي تعزز أداء خوارزمية الميون في تدريب الشبكات العصبية العميقة. يتجاوز هذا الأسلوب الطرق التقليدية ويركز على الأداء العالي دون التضحية بالدقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
