في عالم الذكاء الاصطناعي، تعتبر نماذج المحولات (Transformers) من الأطر الأساسية التي تعتمد عليها العديد من التطبيقات. ومع ذلك، يواجه الباحثون تحديات كبيرة عند محاولة توسيع هذه النماذج، حيث تتطلب العملية غالباً تدريب نماذج أكبر من الصفر. هذا الأمر يثير تساؤلات حول كيفية تحسين آلية انتباه المحولات (Attention Mechanism) التي تعاني من قيود خطية.

هنا يأتي دور نكسسفورمر (Nexusformer) كحل مبتكر. بدلاً من استخدام الانزلاقات الخطية التقليدية في تخزين المعلومات (Q/K/V)، يعتمد نكسسفورمر على طبقة جديدة تُعرف باسم طبقة النكسوس-رانك (Nexus-Rank Layer). هذه الطبقة تقدم خريطة غير خطية من خلال ثلاث مراحل مدفوعة بتنشيطات مزدوجة في فضاءات أبعاد متزايدة.

يثبت هذا التصميم فعاليته من خلال تحطيم القيود الخطية، مما يسمح بالنمو الهيكلي دون فقدان المعرفة المكتسبة سابقاً. على سبيل المثال، يمكن إضافة سعة جديدة عبر محاور متعددة باستخدام كتل مُعتمدة على صفر، مما يعزز من النمو التدريجي للنموذج.

عندما تم اختبار نكسسفورمر على معايير النمذجة اللغوية (Language Modeling) واختبارات التفكير (Reasoning Benchmarks)، أظهر نتائج تعادل أداء نموذج توكنفورمر (Tokenformer) مع توفير ما يصل إلى 41.5% من تكاليف التدريب خلال مراحل التوسع من 240 مليون إلى 440 مليون وحدة.

ليس هذا فحسب، بل إن تحليل ديناميات النمو كشف عن أن استخدام التهيئة الصفرية (Zero Initialization) يُنتج مساراً ثابتاً للتقارب، مما يتيح اشتقاق قانون هندسي للتوسع يمكنه التنبؤ بدقة بالأداء عبر مقاييس التوسع.

في الختام، فإن هذه الابتكارات لا تقدم فقط حلولاً لمشاكل التوسع، بل تُحدث نقلة نوعية في كيفية تطوير نماذج الذكاء الاصطناعي في المستقبل.