في عالم الذكاء الاصطناعي، يُعتبر تحدي النسيان الكارثي (catastrophic forgetting) من أكبر العقبات التي تواجه نماذج التعلم المستمر (continual learning). ومن خلال البحث الأخير، تبين أن استخدام الكوانتيزات الثمانية بت (8-bit quantization) يمكن أن يسهم بشكل كبير في تحسين هذه العملية.

استكشف الباحثون العلاقة بين دقة الكوانتيزات (مثل FP16، INT8، وINT4) واستراتيجيات استخدام الذاكرة المؤقتة (replay buffer) في النماذج اللغوية الكبيرة. نتائج الدراسة أظهرت أن النماذج الكوانتيزات، بالرغم من أن دقة FP16 تقدم أداءً أوليًا أفضل في المهام (74.44% في NLU)، إلا أن النماذج المquantized تفوقت لاحقًا بنسبة 8-15% في دقة المهام النهائية. على سبيل المثال، في مهمة توليد الشيفرات، حققت INT4 ما يقرب من ضعف أداء FP16 (40% مقابل 20%).

الأمر الأكثر إثارة هو أن استخدام ذاكرة مؤقتة صغيرة، حتى بنسبة 0.1%، يزيد من نسبة الاحتفاظ بالمعرفة بشكل كبير، مما يعزز نتائج الاحتفاظ في NLU من 45% إلى 65% عبر مستويات الدقة المختلفة. كانت INT8 هي الأكثر توازنًا بين المرونة في التعلم والاحتفاظ بالمعرفة.

تفسير ذلك يعود إلى الفرضية التي تشير إلى أن الضوضاء الناتجة عن الكوانتيزات تعمل كتنظيم ضمني، مما يمنع النماذج عالية الدقة من التكيف المفرط مع تدرجات المهام الجديدة. هذه النتائج تدعو إلى إعادة التفكير في الاعتقاد السائد بأن الدقة العالية هي دائماً الخيار الأفضل، حيث تقدم INT8 كوانتيزات كفاءة حاسوبية وديناميات تعلم مستمر متفوقة.

تقدم النتائج أيضًا إرشادات عملية لنشر النماذج المضغوطة في سيناريوهات التعلم المستمر: فذاكرة مؤقتة صغيرة (1-2%) تكفي لمهام NLU، بينما تستفيد مهام الرياضيات والشيفرات من ذاكرات مؤقتة معتدلة (5-10%). والجدير بالذكر أن النماذج المquantized تتطلب ذاكرات مؤقتة أقل من FP16 لتحقيق احتفاظ مماثل. للمزيد من المعلومات، يمكنك زيارة الشفرة المتاحة.