في عالم الذكاء الاصطناعي، يقدم مشروع DeepSeek-V4 نتاجاً مثيراً، حيث تتضمن هذه السلسلة نموذجين قويين من نماذج اللغة المعتمدة على مزيج من الخبراء (Mixture-of-Experts MoE). النموذج الأول، DeepSeek-V4-Pro، يمتلك 1.6 تيرابايت من المعلمات (49 مليار مفعلة)، بينما يأتي النموذج الثاني، DeepSeek-V4-Flash، مع 284 مليار معلمة (13 مليار مفعلة). كلا النموذجين يدعمان القدرة على التعامل مع السياقات التي تصل إلى مليون رمز!
يمتاز DeepSeek-V4 بالعديد من الترقيات على مستوى المعمارية وتحسين الأداء. من بين هذه التحسينات:
1. **هيكل انتباه هجين** يجمع بين التقنية المسماة الانتباه المعتمد على الأبعاد المنضغطة (Compressed Sparse Attention CSA) والانتباه المعتمد على الأبعاد الثقيلة (Heavily Compressed Attention HCA)، مما يعزز كفاءة إدارة السياقات الطويلة.
2. **وصلات هايبر مُقيدة** (Manifold-Constrained Hyper-Connections mHC) التي تعمل على تحسين الوصلات التقليدية.
3. **محسن موون** (Muon optimizer) الذي يعزز من سرعة التقارب واستقرار التدريب.
تم تدريب كلا النموذجين مسبقًا على أكثر من 32 تيرابايت من الرموز المتنوعة وعالية الجودة، تلاها خط أنابيب شامل لتحسين الأداء يعزز إمكاناتهما.
ويعتبر DeepSeek-V4-Pro-Max، النسخة الأكثر كفاءة من DeepSeek-V4-Pro، نموذجاً متقدماً من حيث القدرة على الاستنتاج، حيث يتجاوز أداء النماذج السابقة في المهام الأساسية. كما أن سلسلة DeepSeek-V4 تبرهن على كفاءتها في التعامل مع السياقات الطويلة، إذ يحتاج DeepSeek-V4-Pro عند العمل في سياقات بمليون رمز إلى 27% فقط من قوة الحساب اللازمة للتنبؤ برمز واحد و10% من ذاكرة التخزين المؤقت للكيانات المقترنة مقارنةً بـ DeepSeek-V3.2.
هذا الإنجاز يمثل خطوة جريئة نحو تحقيق مهام طويلة المدى وتوسيع قدرات نماذج الذكاء الاصطناعي. للمهتمين بالتجربة، يمكنكم الوصول إلى نقاط تحقق النموذج عبر huggingface.co.
الذكاء الاصطناعي يتخطى الحدود: DeepSeek-V4 يقدم إجابات معقدة بمليون رمز!
يقدم DeepSeek-V4 تقنيات جديدة تجعل التعامل مع السياقات الطويلة أكثر كفاءة، ليصبح ضمن الأفضل في نماذج الذكاء الاصطناعي. مع تحديثات معمارية مبتكرة، يسعى هذا النموذج لتغيير قواعد اللعبة في معالجة البيانات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
