في عالم الذكاء الاصطناعي، يظهر نموذج ZAYA1-VL-8B كمنافس قوي في تطور نماذج فهم الصور واللغة. يعتمد هذا النموذج على بنية متطورة مستوحاة من نموذج اللغة الخاص بنا ZAYA1-8B، وهو ما يمنحه القدرة على تحقيق أداء مذهل في عدة مجالات.

يوفر ZAYA1-VL-8B، والذي يعد وحدة مضغوطة من الخبرات، أداءً يتحدى النماذج الكبرى مثل Molmo2-4B وInternVL3.5-4B، بينما يتفوق كذلك على نماذج أخرى مثل Qwen2.5-VL-3B وPLM-3B. ذلك بفضل تفوقه في جميع الجوانب المرتبطة بفهم الصور، الاستدلال، والعد والتي أثبتت الكثير من التجارب أنها تتطلب مهارات تحليلية متخصصة.

يتضمن تصميم النموذج اثنين من الابتكارات الرئيسية:
1. تطبيقات LoRA المتخصصة للرؤية، والتي تم دمجها في نماذج اللغات الضخمة (LLMs) لزيادة القدرة على المعالجة دون زيادة عدد الخبراء.
2. استخدام الانتباه ثنائي الاتجاه للرموز الصورية ضمن نموذج اللغات لتعزيز الفهم البصري.

يحتوي النموذج على 9.2 مليار بارامتر إجمالي، مع 1.4 مليار بارامتر نشط تضمينًا لمشفر الرؤية، وهو متاح للجمهور على منصة Hugging Face.

تعتبر ZAYA1-VL-8B خطوة نوعية نحو نماذج أكثر فعالية في فهم وتعامل مع الصور، مما يجعلها رائدة في هذا المجال الحديث.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.