في السنوات الأخيرة، أظهرت نماذج اللغات الضخمة (Large Language Models) مثل نموذج GPT أنها تقدم إنجازات ملحوظة في معالجة اللغة الطبيعية. ومع ذلك، هناك تحدٍ ظلّ يمثل مشكلة مؤرقة لعلماء البيانات والمطورين، وهو فقدان المرونة (Plasticity Loss). هذا المفهوم يدل على قدرة الشبكات العصبية على تعلم معلومات جديدة بعد تعلم معلومات سابقة.
فقدان المرونة يعدّ عقبة رئيسية في تصميم الشبكات العصبية القادرة على التعلم المستمر، على الرغم من أن هذه الظاهرة تم دراستها بشكل رئيسي في المعماريات الصغيرة سابقًا. في دراسة حديثة نُشرت على arXiv، تم تحليل فقدان المرونة في نماذج مبنية على معمارية الترانسفورمر، بهدف فهم مدى استمرار هذه المشكلة في ظل النموذج الحديث.
وقد أظهرت النتائج المستخلصة من دراسة أجريت على نماذج GPT التي تم تدريبها على مواضيع متعددة اللغات، وجود أدلة ملموسة على فقدان المرونة، بدءًا من نماذج تحتوي على 5 مليون وحتى 314 مليون معلمة. وقد تم قياس هذا التأثير من خلال تدهور أداء النموذج في اختبار خاص باللغة الفيتنامية.
ولاحظ الباحثون أيضًا أن فقدان المرونة يتبع قانون قياس متوقع، حيث يزداد بشكل غير خطي مع زيادة حجم النموذج. هذه النتائج تشير إلى أن النموذج الأكبر قد يؤجل الآثار القابلة للقياس لفقدان المرونة، ولكن زيادة عدد المعلمات بمفردها لن تكون كافية لمنع هذه الظاهرة بشكل كامل.
علاوة على ذلك، تم العثور على مظاهر لفقدان المرونة حتى أثناء تدريب متعدد اللغات الثابت، مما يتحدى الفكرة القائلة بأن هذه الظاهرة تقتصر على التعلم المستمر مع تغييرات مفاجئة في المهام.
بصورة إجمالية، تشير نتائج هذه الدراسة إلى أن حتى النماذج الضخمة المدربة على اللغة الطبيعية ستفقد في النهاية القدرة على التكيف بفاعلية مع بيانات جديدة بعد فترة تدريب طويلة، سواء في إعدادات التعلم المستمر أو الثابتة. فما رأيكم في هذه النتائج؟ هل تعتقدون بأن زيادة الحجم هي الحل لمواجهة فقدان المرونة؟ شاركونا في التعليقات.
هل يمكن أن ينقذنا الحجم من فقدان المرونة في نماذج اللغات الضخمة؟
تكشف دراسة جديدة عن فقدان المرونة في نماذج اللغات الضخمة، من خلال فحص نماذج مبنية على معمارية الترانسفورمر، مما يثير تساؤلات حول قدرتها على التعلم المستمر. هل يكفي زيادة الحجم لمواجهة هذه الظاهرة؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
