في عالم الذكاء الاصطناعي، تلعب نماذج اللغات الكبيرة (Large Language Models) دورًا محوريًا في تطوير نظم الفهم الآلي. لكن ما يحدث عندما نقوم بتدريب هذه النماذج باستخدام تقنيات جديدة مثل MXFP4؟ هذا هو السؤال الذي تم تناوله في دراسة حديثة تهدف إلى فهم تأثير التدريب الكامل باستخدام FP4.

تتناول الدراسة تأثير تكميم الوزن (Wgrad) على استقرار التدريب، حيث اتضح أن تكميم الوزن هو المحرك الرئيسي الذي يؤثر على تدهور التقارب خلال عملية التدريب. أثناء التدريب الكامل لنموذج Llama 3.1-8B على مجموعة بيانات C4، تم تسجيل نتائج مثيرة للاهتمام حيث أظهرت البيانات أن تطبيق FP4 خلال عمليات النشر الأمامي (Fprop) وتدرجات التنشيط (Dgrad) لا يضيف متطلبات كبيرة للأشكال المُرمزة.

للتعمق في فهم السلوكيات المتغيرة الناتجة عن هذه العمليات، قام الباحثون بإجراء تقييمات تجريبية شاملة باستخدام تدخلات منظمة وعشوائية. ومن المثير للاهتمام، أن التدوير العشوائي والتدوير العشوائي باستخدام هادامارد لم يُثبت فعاليته في استقرار التدريب بمجرد التكميم، بينما التدوير الحتمي لهادامارد قاد إلى استعادة الاستقرار في النتائج.

تشير هذه النتائج إلى أن عدم الاستقرار أثناء تدريب FP4 يرجع بشكل أساسي إلى أخطاء المقياس الدقيقة المنظمة على طول المسارات الحساسة للتدرجات، بدلاً من عدم كفاية العشوائية. ولتأكيد هذه النتائج، تمت التجارب باستخدام دعم MXFP4 الأصلي على معالجات AMD Instinct MI355X، مما سمح بإجراء تحقيقات مدروسة دون الاعتماد على محاكاة البرامج.

تفتح هذه الأبحاث آفاقًا جديدة لفهم كيفية تحسين أداء نماذج اللغات الكبيرة واستمرارية التدريب بطريقة أكثر كفاءة ودقة. مع استمرار تطور تقنيات الذكاء الاصطناعي، يبدو أن تقنيات مثل MXFP4 ستكون لها تأثيرات بعيدة المدى في مجالات متعددة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.