في خطوة جديدة نحو تطوير نماذج الذكاء الاصطناعي، قام الباحثون بالكشف عن نموذج **Nemotron 3 Super** الذي يتميز بتقنية هجينة مبتكرة تعتمد على **Mixture-of-Experts** (اختلاط الخبراء) و**Mamba-Attention**.
يتضمن هذا النموذج الرائد 120 مليار معلمة، مع إمكانية استخدام 12 مليار معلمة فقط بشكل نشط، مما يجعل منه أداة قوية للتعامل مع البيانات الضخمة. ولأول مرة، تم تدريب Nemotron 3 Super باستخدام نظام **NVFP4**، الذي يحسن بشكل ملحوظ من كفاءة النموذج.
كما أضاف الباحثون بنية جديدة تُعرف بـ **LatentMoE**، والتي تعمل على تحسين الدقة بالنسبة لوحدة المعالجة (FLOP) و دقة كل معلمة، مما يعزز من أداء النموذج في المهام المعقدة. هذا بالإضافة إلى استخدام طبقات **MTP** لتسريع الاستدلال عبر **speculative decoding**، مما يسمح للنموذج بتحقيق سرعات استدلال عالية.
تم تدريب النموذج على 25 تريليون توكن، تليه عملية تدريب نهائية تعتمد على التقنيات التقليدية مثل **Supervised Fine-Tuning (SFT)** و**Reinforcement Learning (RL)**. ونتيجة لهذا، يدعم النموذج مدى سياقي يصل إلى مليون عنصر، ويحقق دقة تنافسية ممتازة عند مقارنته بمعايير الأداء الشائعة.
وبحسب البيانات، فإن Nemotron 3 Super يعد أسرع بأكثر من 2.2 ضعف و7.5 ضعف في مجمل الأداء مقارنة بنماذج **GPT-OSS-120B** و**Qwen3.5-122B** على التوالي.
وما يزيد من روعة هذا الإنجاز هو أن البيانات والنماذج الخاصة بـ Nemotron 3 Super ستكون متاحة بشكل مفتوح على **HuggingFace**، مما يتيح للباحثين والمطورين الوصول إليها والاستفادة منها.
لمزيد من المعلومات حول كيفية تأثير هذه التقنية على المستقبل، نحن ننتظر أن نسمع آرائكم: كيف ترون تأثير Nemotron 3 Super على مجال الذكاء الاصطناعي؟ شاركونا في التعليقات!
ثورة جديدة في الذكاء الاصطناعي: نموذج Nemotron 3 Super المذهل لمعالجة التفكير الوكلي!
تقدم Nemotron 3 Super نموذجًا هجينيًا متطورًا يجمع بين تقنية Mixture-of-Experts و Mamba-Attention، مما يتيح أداءً فائقًا في معالجة البيانات. مع دعمه لمدى سياقي يصل إلى مليون، يمثل هذا النموذج قفزة نوعية في دقة وسرعة الاستدلال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
