في عالم الذكاء الاصطناعي، يُعتبر تحدي النسيان الكارثي (catastrophic forgetting) من أكبر العقبات التي تواجه نماذج التعلم المستمر (continual learning). ومن خلال البحث الأخير، تبين أن استخدام الكوانتيزات الثمانية بت (8-bit quantization) يمكن أن يسهم بشكل كبير في تحسين هذه العملية.
استكشف الباحثون العلاقة بين دقة الكوانتيزات (مثل FP16، INT8، وINT4) واستراتيجيات استخدام الذاكرة المؤقتة (replay buffer) في النماذج اللغوية الكبيرة. نتائج الدراسة أظهرت أن النماذج الكوانتيزات، بالرغم من أن دقة FP16 تقدم أداءً أوليًا أفضل في المهام (74.44% في NLU)، إلا أن النماذج المquantized تفوقت لاحقًا بنسبة 8-15% في دقة المهام النهائية. على سبيل المثال، في مهمة توليد الشيفرات، حققت INT4 ما يقرب من ضعف أداء FP16 (40% مقابل 20%).
الأمر الأكثر إثارة هو أن استخدام ذاكرة مؤقتة صغيرة، حتى بنسبة 0.1%، يزيد من نسبة الاحتفاظ بالمعرفة بشكل كبير، مما يعزز نتائج الاحتفاظ في NLU من 45% إلى 65% عبر مستويات الدقة المختلفة. كانت INT8 هي الأكثر توازنًا بين المرونة في التعلم والاحتفاظ بالمعرفة.
تفسير ذلك يعود إلى الفرضية التي تشير إلى أن الضوضاء الناتجة عن الكوانتيزات تعمل كتنظيم ضمني، مما يمنع النماذج عالية الدقة من التكيف المفرط مع تدرجات المهام الجديدة. هذه النتائج تدعو إلى إعادة التفكير في الاعتقاد السائد بأن الدقة العالية هي دائماً الخيار الأفضل، حيث تقدم INT8 كوانتيزات كفاءة حاسوبية وديناميات تعلم مستمر متفوقة.
تقدم النتائج أيضًا إرشادات عملية لنشر النماذج المضغوطة في سيناريوهات التعلم المستمر: فذاكرة مؤقتة صغيرة (1-2%) تكفي لمهام NLU، بينما تستفيد مهام الرياضيات والشيفرات من ذاكرات مؤقتة معتدلة (5-10%). والجدير بالذكر أن النماذج المquantized تتطلب ذاكرات مؤقتة أقل من FP16 لتحقيق احتفاظ مماثل. للمزيد من المعلومات، يمكنك زيارة الشفرة المتاحة.
اكتشف كيف تحسن الكوانتيزات الثمانية بت التعلم المستمر في نماذج اللغة العملاقة!
تحديات النسيان الكارثي في التعلم المستمر يمكن التغلب عليها من خلال استخدام الكوانتيزات منخفضة الدقة. دراسات جديدة تشير إلى أن الكوانتيزات من نوع INT8 تقدم أداءً متفوقاً وتوازنًا مثاليًا بين التعلم والاحتفاظ بالمعرفة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
