في عالم الذكاء الاصطناعي، يأتي الإعلان عن PLaMo 2.1-VL كنموذج خفيف الوزن يجمع بين الرؤية واللغة (Vision Language Model - VLM)، مما يشكل خطوة كبيرة نحو تطوير الأجهزة المستقلة. يتوفر النموذج بنسختين، 8 مليار و2 مليار، ويتميز بتصميمه المناسب للتطبيقات المحلية والحافة مع دعم كامل للغة اليابانية.
تتركز قدرات PLaMo 2.1-VL حول الإجابة على الأسئلة المتعلقة بالصورة (Visual Question Answering - VQA) والتحديد البصري (Visual Grounding)، حيث تم تطويره وتقييمه من أجل تطبيقين حقيقيين: تحليل مهام المصانع من خلال التعرف على الأدوات وكشف الشذوذ في البنية التحتية.
ليس ذلك فقط، بل تم إنشاء خط إنتاج بيانات صناعي ضخم ومكتبة شاملة للموارد التدريبية والتقييمية باللغة اليابانية. وقد أظهرت النتائج أن PLaMo 2.1-VL يتفوق على النماذج المفتوحة المماثلة على معايير الاختبار اليابانية والإنجليزية، حيث حقق 61.5 ROUGE-L في اختبار JA-VG-VQA-500 و85.2% دقة في تقييم Japanese Ref-L4.
وعن التطبيقين اللذين تم اختبار النموذج عليهما، فهي ممتعة؛ إذ حقق النموذج دقة صفرية تبلغ 53.9% في تحليل مهام المصانع، بينما أدى تحسين البيانات المتعلقة بمحطات الطاقة إلى زيادة فئة الدقة الخاصة بكشف الشذوذ من 39.7 إلى 64.9.
بفضل هذه الميزات، يشكل PLaMo 2.1-VL ثورة حقيقية في كيفية تعامل الأجهزة المستقلة مع البيانات البصرية والنصية، مما يعزز التحول الرقمي في مجموعة من الصناعات المختلفة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
⏱ 2 دقائق للقراءة👁 0 مشاهدة
تقديم PLaMo 2.1-VL: نموذج ثوري للذكاء الاصطناعي للغة والرؤية
يتمتع PLaMo 2.1-VL بقدرات استثنائية في معالجة الصور والنصوص، مما يجعله خياراً مثالياً للتطبيقات الذكية في المصانع والأنظمة. يحقق النموذج نتائج متقدمة في الدقة والتحليل، مما يعزّز مكانته في السوق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
