في عالم الذكاء الاصطناعي، يأتي الإعلان عن PLaMo 2.1-VL كنموذج خفيف الوزن يجمع بين الرؤية واللغة (Vision Language Model - VLM)، مما يشكل خطوة كبيرة نحو تطوير الأجهزة المستقلة. يتوفر النموذج بنسختين، 8 مليار و2 مليار، ويتميز بتصميمه المناسب للتطبيقات المحلية والحافة مع دعم كامل للغة اليابانية.

تتركز قدرات PLaMo 2.1-VL حول الإجابة على الأسئلة المتعلقة بالصورة (Visual Question Answering - VQA) والتحديد البصري (Visual Grounding)، حيث تم تطويره وتقييمه من أجل تطبيقين حقيقيين: تحليل مهام المصانع من خلال التعرف على الأدوات وكشف الشذوذ في البنية التحتية.

ليس ذلك فقط، بل تم إنشاء خط إنتاج بيانات صناعي ضخم ومكتبة شاملة للموارد التدريبية والتقييمية باللغة اليابانية. وقد أظهرت النتائج أن PLaMo 2.1-VL يتفوق على النماذج المفتوحة المماثلة على معايير الاختبار اليابانية والإنجليزية، حيث حقق 61.5 ROUGE-L في اختبار JA-VG-VQA-500 و85.2% دقة في تقييم Japanese Ref-L4.

وعن التطبيقين اللذين تم اختبار النموذج عليهما، فهي ممتعة؛ إذ حقق النموذج دقة صفرية تبلغ 53.9% في تحليل مهام المصانع، بينما أدى تحسين البيانات المتعلقة بمحطات الطاقة إلى زيادة فئة الدقة الخاصة بكشف الشذوذ من 39.7 إلى 64.9.

بفضل هذه الميزات، يشكل PLaMo 2.1-VL ثورة حقيقية في كيفية تعامل الأجهزة المستقلة مع البيانات البصرية والنصية، مما يعزز التحول الرقمي في مجموعة من الصناعات المختلفة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.