في عالم الذكاء الاصطناعي، تبرز نماذج اللغة الكبيرة (Large Language Models) كنجم ساطع، حيث تعتمد بشكل أساسي على طبقات التغذية الأمامية (Feedforward Layers) التي تشكل نسبة كبيرة من معلمات تلك النماذج وتعبر عنها بطريقة غير خطية. على الرغم من التطورات في استخدام الدوال التفعيلية مثل ReLU وGELU، لا تزال معظم تصاميم الطبقات تعتمد على دالة تنشيط ثابتة واحدة تطبق على جميع الرموز.
في العمل الجديد الذي نقدمه، نعرض مفهوم "خلط التفاعلات" (Mixture of Activations - MoA)، وهو تصميم للطبقات التي تعتمد على التغذية الأمامية ويتكيف مع الرموز، حيث يقوم بخلط مجموعة من دوال التفعيل باستخدام بوابات خفيفة تعتمد على المدخلات، بينما يظل يشترك في نفس الإسقاطات الخطية.
كجزء من هذا الابتكار، نقدم أيضًا دوال تفعيل قابلة للتعلم (Learnable Activations - LA) التي تشكل توليفات خطية من دوال التفعيل لكلا النوعين ReLU وSwiGLU. ومع ذلك، قمنا بتأسيس فواصل تعبيرية صارمة نظريًا بين FFNs ذات الدوال الثابتة وLA وMoA، حيث تحتوي LA بوضوح على FFNs ذات الدوال الثابتة، بينما تحتوي MoA على LA بشكل صارم، مع إمكانية التعبير الإضافي القادمة من الهجين غير الخطي المعتمد على المدخلات.
على الصعيد التجريبي، قمنا بتقييم MoA من خلال تجارب ما قبل التدريب الواسعة على نماذج اللغة الكثيفة (Dense) وMoE التي تتراوح من 0.12B إلى 2B مع معلمات مختلفة من ميزانية الرموز والمُحسّنات ومواقيت معدلات التعلم. وقد أثبتت نتائجنا أن MoA يحقق انخفاضًا مستمرًا في خسارة النتائج النهائية ويظهر سلوكاً أفضل في التوسع مقارنةً بالأساسيات المدروسة بعناية، مع الحد الأدنى من زيادة المعلمات والأعباء الحسابية.
تشير هذه النتائج إلى أن خلط دوال التفعيل القابلة للتكيف هو آلية بسيطة وفعالة لتحسين تعبير FFN في نماذج اللغة الكبيرة. إن مستقبل الذكاء الاصطناعي واعد جداً بفضل هذه الابتكارات!
ما رأيكم في هذا التطور؟ شاركونا في التعليقات!
تطور ثوري في نماذج اللغة: طبقات تغذية أمامية أكثر تعبيراً!
يشهد الذكاء الاصطناعي تقدماً مذهلاً بفضل تصميم جديد لمعادلات التغذية الأمامية والذي يتيح مرونة غير مسبوقة في معالجة الرموز. هذا الابتكار يقدم طريقة جديدة لتحسين أداء نماذج اللغة الكبيرة بكفاءة عالية!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
