مفاجأة في عالم الذكاء الاصطناعي: COHERENCE ينقل نموذج التفاعل مع الصور والنصوص لمستوى جديد!

أطلقت الأبحاث الجديدة benchmark يدعى COHERENCE، والذي يهدف إلى تحسين فهم نماذج الذكاء الاصطناعي للعلاقات بين الصور والنصوص في سياقات متعددة. هذه الخطوة تمثل تقدماً كبيراً في تقييم قدرات هذه النماذج في فهم المحتوى المتداخل.

في السنوات الأخيرة، حققت نماذج اللغات الضخمة متعددة الوسائط (Multimodal Large Language Models - MLLMs) تقدمًا ملحوظًا في مجموعة واسعة من المعايير متعددة الوسائط. ومع ذلك، تركز غالبية هذه المعايير على فهم الصور الفردية فقط أو مجموعة من الصور. في العالم الحقيقي، حيث يتم تقديم المعلومات في سياقات متعددة، مثل قراءة الوثائق، يجب على نماذج MLLMs التعرف على محتوى الصور بشكل فردي وتحديد الأدلة النصية والبصرية ذات الصلة.

لملء هذه الفجوة، تم اقتراح benchmark جديد يحمل اسم COHERENCE، يهدف إلى تقييم قدرة نماذج MLLMs على استعادة العلاقات الدقيقة بين الصور والنصوص في سياقات متداخلة. يتضمن COHERENCE محتوى نصوص وصور متداخلة من أربعة مجالات تمثيلية، ويحتوي على 6,161 سؤالًا عالي الجودة. كما تم إجراء تحليل دقيق لستة أنواع من الأخطاء، مما يسمح بتحديد العيوب في تحليل الصور والنصوص لدى نماذج MLLMs.

هذا التطور يفتح آفاقًا جديدة لفهم وتحليل المحتوى، مما يمهد الطريق لمزيد من الابتكارات في الذكاء الاصطناعي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.

جاري تحميل التفاعلات...

مفاجأة في عالم الذكاء الاصطناعي: COHERENCE ينقل نموذج التفاعل مع الصور والنصوص لمستوى جديد!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

البنتاغون يوقع اتفاقيات استراتيجية مع نيفيديا ومايكروسوفت وAWS لنشر الذكاء الاصطناعي على الشبكات المصنفة!

الأمن السيبراني في عصر الذكاء الاصطناعي: تحديات جديدة تتطلب إعادة التفكير!

استثمار الذكاء الاصطناعي: السيطرة على البيانات لصياغة مستقبل مستدام