تتجه الأنظار نحو النماذج اللغوية متعددة الوسائط (Multimodal Large Language Models - MLLMs) التي برزت كأداة قوية في فهم الفيديوهات. ومع ذلك، تبقى فعاليتها في كشف الشذوذ في التطبيقات الحقيقية موضوع نقاش وجدل.
يتيح الانتقال من الأساليب التقليدية التي تعتمد على إعادة البناء أو الإشارات المستندة إلى الوضع استخدام هذه النماذج كأداة لفهم اللغة لأغراض كشف الشذوذ. في هذا السياق، قمنا بإجراء تقييم شامل لأحدث ممارسات MLLMs باستخدام معايير ShanghaiTech وCHAD، مع إعادة صياغة مهمة كشف الشذوذ (Video Anomaly Detection - VAD) كمهمة تصنيف ثنائية تحت إشراف زمني ضعيف.
ركزنا على كيفية تأثير تحديد المطالب الزمنية وأطوال النوافذ الزمنية (من 1 إلى 3 ثوانٍ) على الأداء، مع تحليل التوازن بين الدقة والاسترجاع. كانت النتائج مثيرة للقلق، حيث أظهرت النماذج ميلاً محافظًا في الإعدادات بدون تدريب، حيث كانت ثقتها عالية ولكنها تفضل بشكل غير متناسب الفئة "الطبيعية"، مما أدى إلى دقة مرتفعة مع انخفاض ملحوظ في الاسترجاع.
لقد أثبتنا أن توجيهات محددة للفئة يمكن أن تُحسّن من دقة نتائج التصنيف، حيث ارتفع الحد الأقصى لمؤشر F1 على ShanghaiTech من 0.09 إلى 0.64، لكن يظل الاسترجاع عقبة حرجة. تُبرز هذه النتائج الفجوة الكبيرة في أداء MLLMs في البيئات الضوضائية، مما يُعد أساسًا للعمل المستقبلي في تحسين الدقة المرتكزة على الاسترجاع ومعايرة النماذج لأغراض المراقبة المفتوحة التي تتطلب فهمًا معقدًا للفيديو.
نأمل في أن تمنحك هذه النتائج نظرة جديدة على الإمكانيات والتحديات التي تواجه الذكاء الاصطناعي في مجال المراقبة. لقد أضحت الحاجة ملحة لاستكشاف المزيد من الأساليب لتعزيز أداء النماذج في ظروف العالم الحقيقي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
هل النماذج اللغوية متعددة الوسائط جاهزة للمراقبة؟ تحليل مثير حول كشف الشذوذ بدون تدريب!
تستعرض دراسة جديدة فعالية النماذج اللغوية متعددة الوسائط (MLLMs) في كشف الشذوذ في الفيديوهات. النتائج تكشف عن تحديات كبيرة تتعلق بالدقة والموثوقية في البيئات الضوضائية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
