في عالم الذكاء الاصطناعي، يعتبر توسيع نماذج اللغة مسبقة التدريب (Pre-trained Language Models) طريقة عملية لزيادة السعة دون الحاجة لتدريب نماذج أكبر. تمثل تقنية زيادة العمق (Depth Up-Scaling - DUS) وسيلة لتحقيق ذلك من خلال مضاعفة كتل الـ Transformer وإدراجها في هيكل مُدرب مسبقًا.
ومع ذلك، فإن هذه العملية تعني أيضًا مضاعفة كتل الشبكات العصبية ذات الكثافة العالية (FFN - FeedForward Networks)، مما يزيد من التكلفة الحسابية والبارامترات، بينما تضيف سعة من خلال فرع متبقي كثيف على مستوى الكتل. لكن الأبحاث السابقة تشير إلى أن السعة المضافة قد لا ترتبط بشكل دائم بفروع FFN الكثيفة، حيث تلعب رؤوس الانتباه (Attention Heads) أدواراً متنوعة، مما يحفز الحاجة إلى تصحيحات متبقية أكثر كفاءة على مستوى الرؤوس.
لذا، نقدم لكم تقنية MIDUS: ذاكرة مدمجة لزيادة العمق، التي تستبدل فروع FFN المكررة بطبقات ذاكرة، مما يحول العمق الإضافي إلى سعة متبقية خفيفة قائمة على الاسترجاع. نعرض أيضًا طبقة الذاكرة على مستوى الرأس (Head-wise Memory Layer - HML)، التي تجمع بين ذاكرة مفاتيح متعددة الرؤوس مع توسيع القيمة الضمنية على مستوى الرأس (Head-wise Implicit Value Expansion - HIVE). تقوم HML بتخصيص مساحة مفتاح مميزة لكل رأس، بينما تحقق HIVE قيمًا خاصة بالرأس من بنك latent مشترك من خلال إسقاطات مضغوطة.
تأتي هذه التقنية مع تحسينات تجريبية في الأداء والكفاءة، حيث تُظهر تحليلات أهمية الرأس والبنية الثابتة أن HML مع HIVE يمثل بديلاً متميزًا قائمًا على الرأس لتوسيع السعة المتبقية المستندة إلى FFN.
تغيير قواعد اللعبة في الذكاء الاصطناعي: MIDUS يعيد تعريف زيادة العمق في نماذج اللغة!
يقدم MIDUS تقنية جديدة لزيادة العمق في نماذج اللغة مسبقة التدريب عن طريق دمج طبقات الذاكرة. هذه الطريقة تقدم حلاً فعالاً لتوسيع القدرات دون الحاجة لتدريب نماذج أكبر من الصفر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
