سباينغ برين: نماذج لغوية مستوحاة من الدماغ لتحقيق كفاءة فائقة

في عالم الذكاء الاصطناعي، تعاني النماذج اللغوية الكبيرة القائمة على تقنيات Transformers من تحديات كبيرة تتعلق بالكفاءة. حيث تتطلب عمليات التدريب حسابات تزداد تعقيداً مع زيادة طول السلسلة النصية، مما يُعرقل معالجة السياقات الطويلة. لتجاوز هذه القيود، تم تقديم نموذج سباينغ برين (SpikingBrain)؛ عائلة من النماذج المستوحاة من الدماغ، والتي تهدف إلى تحقيق كفاءة استثنائية أثناء التدريب والمعالجة.

يستفيد سباينغ برين من مجموعة أجهزة MetaX GPU، وتركز على ثلاث زوايا رئيسية: أولاً، معمارية النموذج، حيث تستخدم انتباهًا خطيًا وهجينًا مع خلايا عصبية نابضة متكيفة؛ وثانياً، تحسينات خوارزمية، تتضمن خط أنابيب تدريبي فعال قائم على التحويل وإطار عمل مخصص لترميز النبضات؛ ثالثاً، هندسة النظام، وتشمل أطر تدريب مخصصة ومكتبات عمليات واستراتيجيات تقليل زمن التنفيذ.

تم تطوير نماذج سباينغ برين بعناية، بما في ذلك SpikingBrain-7B، نموذج LLM خطي، وSpikingBrain-76B، نموذج MoE هجين-خطّي. وقد أثبتت هذه النماذج قدرتها على التطوير بكفاءة على منصات غير NVIDIA، مع الحفاظ على استقرار التدريب لأسبوع كامل على مئات من وحدات معالجة الرسوميات MetaX، واستخدام مستويات متوقعة من FLOPs للنموذج.

بالإضافة إلى ذلك، أظهرت النماذج أداءً مماثلاً للتطبيقات الأساسية المفتوحة المصدر بينما استخدمت فقط حوالي 150 مليار توكن للتدريب المستمر. كما تحسّن كفاءة معالجة السياقات الطويلة بشكل كبير، حيث تقدم استنتاجات باستخدام ذاكرة ثابتة جزئياً وسلوك نابض مدفوع بالحدث.

فعلى سبيل المثال، سجل نموذج SpikingBrain-7B أكثر من 100 ضعف في سرعة الوصول إلى أول توكن للسلاسل التي تحتوي على 4 مليون توكن. ونظرًا لتطبيق الخوارزمية النابضة، فإنها تحقق نسبة فراغ تصل إلى 69.15%، مما يسمح بتشغيل فعال من حيث الطاقة.

بالمجمل، يظهر ذلك إمكانيات آليات مُستوحاة من الدماغ لدفع تصميم نماذج كبيرة أكثر كفاءة وقابلة للتوسع في المستقبل.

سباينغ برين: نماذج لغوية مستوحاة من الدماغ لتحقيق كفاءة فائقة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

أسس تدريب وتنفيذ النماذج الأساسية على AWS: المستقبل الآن!

تقنيات تقطير نماذج اللغات الضخمة: ثورة في تدريب الذكاء الاصطناعي!

اكتشفوا قوة ذكاء NVIDIA: رؤية وتحسين أسطول وحدات معالجة الرسوميات في الوقت الحقيقي!