تغيير قواعد اللعبة في الذكاء الاصطناعي: MIDUS يعيد تعريف زيادة العمق في نماذج اللغة!

في عالم الذكاء الاصطناعي، يعتبر توسيع نماذج اللغة مسبقة التدريب (Pre-trained Language Models) طريقة عملية لزيادة السعة دون الحاجة لتدريب نماذج أكبر. تمثل تقنية زيادة العمق (Depth Up-Scaling - DUS) وسيلة لتحقيق ذلك من خلال مضاعفة كتل الـ Transformer وإدراجها في هيكل مُدرب مسبقًا.

ومع ذلك، فإن هذه العملية تعني أيضًا مضاعفة كتل الشبكات العصبية ذات الكثافة العالية (FFN - FeedForward Networks)، مما يزيد من التكلفة الحسابية والبارامترات، بينما تضيف سعة من خلال فرع متبقي كثيف على مستوى الكتل. لكن الأبحاث السابقة تشير إلى أن السعة المضافة قد لا ترتبط بشكل دائم بفروع FFN الكثيفة، حيث تلعب رؤوس الانتباه (Attention Heads) أدواراً متنوعة، مما يحفز الحاجة إلى تصحيحات متبقية أكثر كفاءة على مستوى الرؤوس.

لذا، نقدم لكم تقنية MIDUS: ذاكرة مدمجة لزيادة العمق، التي تستبدل فروع FFN المكررة بطبقات ذاكرة، مما يحول العمق الإضافي إلى سعة متبقية خفيفة قائمة على الاسترجاع. نعرض أيضًا طبقة الذاكرة على مستوى الرأس (Head-wise Memory Layer - HML)، التي تجمع بين ذاكرة مفاتيح متعددة الرؤوس مع توسيع القيمة الضمنية على مستوى الرأس (Head-wise Implicit Value Expansion - HIVE). تقوم HML بتخصيص مساحة مفتاح مميزة لكل رأس، بينما تحقق HIVE قيمًا خاصة بالرأس من بنك latent مشترك من خلال إسقاطات مضغوطة.

تأتي هذه التقنية مع تحسينات تجريبية في الأداء والكفاءة، حيث تُظهر تحليلات أهمية الرأس والبنية الثابتة أن HML مع HIVE يمثل بديلاً متميزًا قائمًا على الرأس لتوسيع السعة المتبقية المستندة إلى FFN.

تغيير قواعد اللعبة في الذكاء الاصطناعي: MIDUS يعيد تعريف زيادة العمق في نماذج اللغة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة في عالم الذكاء الاصطناعي: Zyphra تكشف عن ZAYA1-8B-Diffusion-Preview، النموذج الأول من نوعه بتحسين سرعة يصل إلى 7.7 ضعف!

تعزيز نماذج التسلسل: الطريقة الثورية لتقدير الخصائص الشرطية

تطور مثير في نماذج اللغة: تعزيز التفكير الفعّال بأسلوب جديد!