في عالم التكنولوجيا المتطورة، يبرز مفهوم الفكاهة كأحد أكبر التحديات التي تواجه نماذج الذكاء الاصطناعي. في هذا السياق، تم تقديم معيار v-HUB، الذي يشكل طفرة جديدة في مجال الفهم الفكاهي من خلال الفيديو.

يهدف هذا المعيار إلى تقييم قدرة النماذج اللغوية متعددة الوسائط (Multimodal Large Language Models - MLLMs) على فهم الفكاهة. يتضمن v-HUB مجموعة مختارة بعناية من مقاطع الفيديو القصيرة غير اللفظية، التي تجسد مواقف واقعية يمكن تقدير الفكاهة فيها من خلال الإشارات البصرية فقط.

لكل مقطع فيديو، تم تزويده بتعليقات غنية تدعم مجموعة متنوعة من مهام التقييم والتحليل، بما في ذلك دراسة جديدة للصوت البيئي الذي يمكن أن يمكّن من فهم الفكاهة. وقد تم تصميم معيار مفتوح يتضمن مهمة أسئلة وأجوبة، مما يسهل دمج v-HUB في مجموعات المهام الموجودة لفهم الفيديو.

تتضمن التجارب التي أجريت على مجموعة متنوعة من النماذج اللغوية متعددة الوسائط، بدءاً من نماذج الفيديو المتخصصة إلى النماذج الشاملة (OmniLLMs) التي تستطيع معالجة الصوت بشكل أصلي. وكشفت النتائج عن التحديات التي تواجهها هذه النماذج في فهم الفكاهة بناءً على الإشارات البصرية فقط.

كما أبرزت النتائج أن دمج الصوت يعزز من فهم الفكاهة في الفيديو، مما يدل على وعد التكامل بين الأساليب المختلفة لزيادة كفاءة النماذج في المهام المعقدة لفهم الفيديو.