في عالم الفنون السمعية البصرية الذي يتنوع بين السينما والفنون التشكيلية وأداء المسرح وتصميم الألعاب، يكمن المعنى الفني في التنسيق المدروس بين العناصر المرئية والسمعية والسردية. "ماذا تعبر الألوان في لوحة ما؟ وهل يمكن للصورة أن تنقل مشاعر الخوف أو الحزن بشكل فعّال؟" هذه الأسئلة تعكس عمق الفهم الفني.

مع تقدم نماذج اللغات متعددة الوسائط (Multimodal Large Language Models - MLLMs)، يظهر هناك فراغ كبير في فهم دوافع التعبير الفني. حيث كان تركيز المعايير السابقة على الإدراك البصري فقط، مما أغفل الجانب الأساسي من نقد الفنون، وهو التفكير في نية الإبداع وراء الأعمال الفنية.

استجابة لهذا النقص، يأتي "MuseBench" كمعيار شامل تم تصميمه لتقييم نماذج MLLMs من منظور الفهم الفني الدقيق. يتضمن المعيار 4,016 سؤالاً تغطي مجموعة واسعة من الفنون مثل السينما والفنون البصرية والأداء المسرحي وتصميم الألعاب، وقد استُخلصت هذه الأسئلة من أكثر من 10,000 مقالة فيديو تمزج بين التعليقات الاحترافية والعرض البصري.

لتناسب التحليل الفني الشامل، تم تصميم المعيار ليضم أسئلة متعددة الخيارات بأشكال مختلفة. والأكثر إثارة، أن التقييم الشامل لـ 28 نموذجًا من MLLMs عالية الأداء قد أظهر أن أفضل نموذج كان دقيقًا فقط بنسبة 48.29%، مقارنة بأداء الخبراء البشريين الذي بلغ 87.18%.

هذه النتائج تبرز الفجوة الكبيرة في الخبرات الإبداعية الحالية في نماذج الذكاء الاصطناعي، مما يفتح المجال أمام تحسينات مستقبلية في فهم الفنون. ما هو رأيكم في هذا التقدم؟ هل تعتقدون أن الذكاء الاصطناعي يمكن أن يصل يوماً ما إلى مستوى الخبرة البشرية في هذا المجال؟