في عصر يتزايد فيه الاعتماد على تقنيات الذكاء الاصطناعي، تأتي Zamba2-VL كإضافة جديدة تُحدث ثورة في مجال رؤية اللغة. تم تطوير هذه المجموعة المبتكرة من النماذج على أساس Zamba2، الذي يجمع بين طبقات Mamba2 المعمارية ذات الدقة العالية وعدد قليل من كتل Transformer المشتركة.
تتميز Zamba2-VL بأسلوبها الفريد في معالجة الصور وفهمها. فقد أظهرت قدرة مذهلة على المنافسة مع النماذج المعتمدة على Transformer مثل Molmo2 وQwen3-VL وInternVL3.5. بل إنها تتفوق بشكل ملحوظ على النماذج السابقة مثل VL-Mamba وCobra وmmMamba التي تعتمد على تقنيات SSM.
واحدة من أبرز ميزات Zamba2-VL هي كفاءتها المذهلة وسرعة استجابتها. حيث تقدم أداءً يُعادل تقريباً عشرة أضعاف الوقت المطلوب للوصول إلى أول رمز استجابة (TTFT) مقارنة بالنماذج التقليدية ذات المعاملات المطابقة. هذه الميزة تكون أكثر وضوحًا في النماذج الأصغر التي تتراوح بين 1.2B و2.7B، مما يجعلها مثالية للاستخدام على الأجهزة والمواقع الطرفية.
ومع الإصدار الأخير، تم إطلاق ثلاث نماذج بتكوينات مختلفة (1.2B و2.7B و7B) ، إلى جانب كود الاستدلال، مما يُتيح للمطورين الوصول السهل والتجربة. يمكن الاطلاع على التفاصيل الكاملة والنماذج على huggingface.co.
هل أنتم متحمسون لاستكشاف هذه التقنية الجديدة؟ شاركونا آرائكم في التعليقات!
اكتشاف Zamba2-VL: نماذج ثورية في رؤية اللغة تأخذ الأداء إلى آفاق جديدة!
أعلنت Zamba2-VL عن إصدار مجموعة من نماذج رؤية اللغة التي تنافس بجدارة أبرز نماذج Transformers. تتميز بكفاءة عالية وسرعة استجابة مذهلة، مما يعيد تشكيل مشهد الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
