مع تقدم نماذج اللغات المتعددة الوسائط (MLLMs) في معالجة مدخلات الفيديو، بدأت مخاوف جديدة تتجلى بشأن إمكانية إساءة استخدامها. حيث أكدت دراسات سابقة حول اختراق هذه النماذج أن الضوابط الأمنية يمكن تجاوزها عبر المدخلات المرئية، إلا أن هناك تساؤلاً ملحاً حول الخصائص التي تجعل مدخلات الفيديو تُعرّضها لهذه الثغرات.

للإجابة على هذا التساؤل، تم تقديم مجموعة بيانات جديدة تُعرف باسم Multi-Clip Video (MCV) SafetyBench، والتي تحتوي على 2,920 فيديو مصممة لتقييم كيفية تأثير تنوع مدخلات الفيديو على ثغرات MLLMs. كل فيديو يتضمن مقاطع قصيرة متعددة تُظهر سياقات متنوعة مرتبطة باستفسارات ضارة.

أظهرت التجارب التي أجريت على ثمانية نماذج MLLMs أن نجاح الهجمات يتزايد باستمرار مع زيادة عدد المقاطع. تشير النتائج أيضاً إلى أن مدخلات الفيديو (1) أكثر عرضة للاختراق مقارنة بالصور، (2) تكون أكثر هشاشة أمام الفيديوهات الديناميكية مقارنة بالثابتة، و(3) تزداد هشاشتها مع تنوع محتوى الفيديو.

استناداً إلى هذه النتائج، يُقترح استراتيجية دفاعية تعتمد على القوة النسبية لنموذج الصورة، مما قد يساعد في تعويض بعض الثغرات الموجودة في نماذج الفيديو. هذا البحث يسلط الضوء على أهمية التفكير في الأبعاد الأخلاقية للتطورات التكنولوجية.