في السنوات الأخيرة، حققت نماذج اللغات الضخمة متعددة الوسائط (Multimodal Large Language Models - MLLMs) تقدمًا ملحوظًا في مجموعة واسعة من المعايير متعددة الوسائط. ومع ذلك، تركز غالبية هذه المعايير على فهم الصور الفردية فقط أو مجموعة من الصور. في العالم الحقيقي، حيث يتم تقديم المعلومات في سياقات متعددة، مثل قراءة الوثائق، يجب على نماذج MLLMs التعرف على محتوى الصور بشكل فردي وتحديد الأدلة النصية والبصرية ذات الصلة.

لملء هذه الفجوة، تم اقتراح benchmark جديد يحمل اسم COHERENCE، يهدف إلى تقييم قدرة نماذج MLLMs على استعادة العلاقات الدقيقة بين الصور والنصوص في سياقات متداخلة. يتضمن COHERENCE محتوى نصوص وصور متداخلة من أربعة مجالات تمثيلية، ويحتوي على 6,161 سؤالًا عالي الجودة. كما تم إجراء تحليل دقيق لستة أنواع من الأخطاء، مما يسمح بتحديد العيوب في تحليل الصور والنصوص لدى نماذج MLLMs.

هذا التطور يفتح آفاقًا جديدة لفهم وتحليل المحتوى، مما يمهد الطريق لمزيد من الابتكارات في الذكاء الاصطناعي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.