في عالم الذكاء الاصطناعي وتحديداً في مجال نماذج اللغة الضخمة (Large Language Models - LLMs)، يعد التدريب الفعال أمراً محورياً. دراسة جديدة تناقش الطريقة الحديثة المسماة FP4 والتي تعد بتقليل ملحوظ في المتطلبات الحاسوبية والذاكرة خلال فترة تدريب LLM. ومع ذلك، تظهر التحديات في مسارات الأجهزة الحالية، مثل أنظمة NVIDIA Blackwell/Rubin وفئة AMD MI350 والتي تعتمد على عناصر بيانات غير متجانسة مثل E2M1.
تكشف الدراسة عن قيود أساسية في هذا الاختيار، حيث تعاني التنسيقات غير المتجانسة مثل E2M1 من Bias الانكماش، وهو خطأ تقريبي سلبي ناتج عن عدم التماثل الهندسي لبياناتها. وقد تثبت هذه العيوب أن Bias الانكماش يتكدس بشكل مضاعف عبر الطبقات، ويزداد تعقيداً بفضل التحويل لرباعي هادامارد (Random Hadamard Transform - RHT).
بالمقابل، تتجاوز الشبكات المتجانسة مثل E1M2 وINT4 هذه الأخطاء الهندسية، مما يؤدي إلى تحسين الجودة في التكميم. استنادًا إلى هذه النتائج، تقدم الدراسة وصفة جديدة تم تسميتها UFP4، وهي وصفة تدريب 4 بت منتظمة، مما يساهم في تقليل الخسائر وتحسين الأداء باستخدام RHT في جميع GEMMs التدريبية، مع تقليل التقريب العشوائي للمتغير dY فقط.
عبر التجارب على نماذج مثل Dense 1.5B وMoE 7.9B وMoE 124B، أظهرت وصفة UFP4 تفوقها بشكل مستمر على الأسس السابقة المعتمدة على E2M1، مشيرة إلى إمكانية ابتكار آلات تجريبية مستقبلاً تدعم الشبكات المنتظمة E1M2/INT4 كعناصر تدريب أساسية. في ضوء هذه الاكتشافات، يبقى السؤال مطروحاً: كيف سيؤثر هذا التطور على مستقبل الذكاء الاصطناعي؟
إعادة التفكير في تأثير Bias الانكماش في نماذج اللغة الضخمة: أصول هندسية وتأثير نظامي وصفة UFP4 المثيرة!
تكشف دراسة جديدة عن حدود تقنيات التدريب الحالية لنماذج اللغة الضخمة، مشيرة إلى تأثير Bias الانكماش وأهمية استخدام شبكات منتظمة. اكتشفوا كيف يمكن لوصفة UFP4 الجديدة أن تحدث ثورة في تدريب النماذج اللغوية!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
