في عالم الذكاء الاصطناعي الحديث، يعتبر تحسين كفاءة النماذج التلقائية (autoregressive models) أمراً حيوياً لتحقيق الأهداف المرجوة. وقد أظهرت الأبحاث الجديدة فطنة تقنية مدهشة من خلال تقديم نموذج N-vium، وهو نموذج تحويلي يعتمد على مبدأ خلط الخروج (mixture-of-exits) لتحسين سرعة حساب النتائج بدلاً من تقليل تكاليف التحليل لكل رمز.

تتمثل فكرة N-vium في تقسيم العمليات الحسابية عبر أعماق التطبيق التقليدي للنماذج، مما يعزز أداء FLOPs لكل ثانية بدلاً من تقليل عدد العمليات لكل رمز. يتيح N-vium توصيل رؤوس التنبؤ عبر أعماق متعددة، مُعرفاً توزيع الرمز التالي كخليط مُتعلم من هذه المخرجات، مستخدماً توجيهاً يتكيف مع الرموز.

تعتبر هذه الصياغة العامة نقلة نوعية في أهداف النماذج التحويلية التقليدية، حيث تتعافى بشكل دقيق عند توجيه الصفر إلى جميع الرؤوس الوسيطة. يسمح عملية السحب من الخليط بتحقيق النتائج بدقة أعلى، مع استرداد كامل لذاكرة مفتاح القيمة (KV caches) من خلال تأجيل العمليات العليا وتجميعها مع الرموز اللاحقة.

تم تدريب N-vium على مقاييس تصل إلى 1.5 مليار معلمات، مما أظهر في النماذج الكبيرة الخاصة به زيادة مذهلة تصل إلى 57.9% في سرعة الساعة الحائطية مقارنة بنموذج تحويل قياسي مماثل في عدد المعلمات والبيانات، دون أي تكلفة في نسبة الفوضى (perplexity).

إن هذا التقدم الهائل في كفاءة النماذج يعزز خطط التطبيقات المستقبلية في الذكاء الاصطناعي، مما يفتح أبواباً جديدة للابتكار في مجالات متعددة.

ما رأيكم في هذا التطور المشوق؟ شاركونا في التعليقات!