في عالم الذكاء الاصطناعي، تأتي الابتكارات في شكل نماذج متطورة تسعى لتوفير حلول فعالة في مجالات متعددة. ومن بين هذه الابتكارات، يبرز نموذج جينا-في إل إم (jina-vlm) كنموذج جديد لرؤية الصور باللغة مع أداء استثنائي. هذا النموذج، الذي يحتوي على 2.4 مليار معلمة، يتميز بكفاءته في معالجة الصور المتعددة اللغات، مما يجعله في طليعة النموذجين مفتوحي المصدر في هذا المجال.
يعتمد جينا-في إل إم على دمج مشفر رؤية (SigLIP2) مع مفكك لغة (Qwen3)، ويستخدم تقنيات مثل تقسيم الصور وتجميع الانتباه مما يعزز فعاليته في معالجة الصور بدقة مختلفة. خلال الدراسات التي أجريت لفهم تأثير فئات البيانات المتنوعة على أداء النموذج، تم استبعاد فئات معينة من البيانات بشكل منهجي. هذا التحليل يساعد في تحديد أنواع البيانات الضرورية مقابل الفائضة، وما إذا كانت مزايا المهام تنتقل عبر المجالات المختلفة.
النموذج متاح للجمهور بما في ذلك أوزان النموذج والشفرات على منصة [Hugging Face](https://huggingface.co/jinaai/jina-vlm). يُعتبر جينا-في إل إم إضافة جديدة تحمل في طياتها آفاقًا واعدة لمستخدمي الذكاء الاصطناعي، مما يسهل الحصول على استجابات دقيقة ومعقدة من خلال تحليل الصور بجميع أصنافها.
ما رأيكم في هذا الابتكار المذهل؟ شاركونا في التعليقات.
جينا-في إل إم: نموذج رؤية لغوي متعدد اللغات يغير قواعد اللعبة!
تقدم 'جينا-في إل إم' نموذجًا متقدمًا للرؤية اللغوية مع أداء مبتكر في تحليل الأسئلة المتعلقة بالصور. يحمل في طياته 2.4 مليار معلمة، ويجمع بين تقنيات متطورة تجعل منه الأفضل في فئته.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
