تتجه الأنظار [نحو](/tag/نحو) [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية) [متعددة الوسائط](/tag/متعددة-الوسائط) (Multimodal Large Language [Models](/tag/models) - [MLLMs](/tag/mllms)) التي برزت كأداة قوية في [فهم الفيديوهات](/tag/[فهم](/tag/فهم)-الفيديوهات). ومع ذلك، تبقى فعاليتها في [كشف الشذوذ](/tag/[كشف](/tag/كشف)-[الشذوذ](/tag/الشذوذ)) في [التطبيقات](/tag/التطبيقات) الحقيقية موضوع نقاش وجدل.
يتيح الانتقال من الأساليب التقليدية التي تعتمد على إعادة البناء أو الإشارات المستندة إلى الوضع استخدام هذه [النماذج](/tag/النماذج) كأداة لفهم [اللغة](/tag/اللغة) لأغراض [كشف الشذوذ](/tag/[كشف](/tag/كشف)-[الشذوذ](/tag/الشذوذ)). في هذا السياق، قمنا بإجراء [تقييم](/tag/تقييم) شامل لأحدث ممارسات [MLLMs](/tag/mllms) باستخدام [معايير](/tag/معايير) ShanghaiTech وCHAD، مع إعادة صياغة مهمة [كشف الشذوذ](/tag/[كشف](/tag/كشف)-[الشذوذ](/tag/الشذوذ)) ([Video Anomaly Detection](/tag/video-anomaly-detection) - VAD) كمهمة [تصنيف](/tag/تصنيف) ثنائية تحت إشراف زمني ضعيف.
ركزنا على كيفية تأثير تحديد المطالب الزمنية وأطوال النوافذ الزمنية (من 1 إلى 3 ثوانٍ) على الأداء، مع [تحليل](/tag/تحليل) التوازن بين [الدقة](/tag/الدقة) والاسترجاع. كانت النتائج مثيرة للقلق، حيث أظهرت [النماذج](/tag/النماذج) ميلاً محافظًا في الإعدادات بدون تدريب، حيث كانت ثقتها عالية ولكنها تفضل بشكل غير متناسب الفئة "الطبيعية"، مما أدى إلى [دقة](/tag/دقة) مرتفعة مع انخفاض ملحوظ في الاسترجاع.
لقد أثبتنا أن [توجيهات](/tag/توجيهات) محددة للفئة يمكن أن تُحسّن من [دقة](/tag/دقة) نتائج التصنيف، حيث ارتفع الحد الأقصى لمؤشر F1 على ShanghaiTech من 0.09 إلى 0.64، لكن يظل الاسترجاع عقبة حرجة. تُبرز هذه النتائج [الفجوة](/tag/الفجوة) الكبيرة في [أداء](/tag/أداء) [MLLMs](/tag/mllms) في البيئات الضوضائية، مما يُعد أساسًا للعمل المستقبلي في [تحسين الدقة](/tag/[تحسين](/tag/تحسين)-[الدقة](/tag/الدقة)) المرتكزة على الاسترجاع ومعايرة [النماذج](/tag/النماذج) لأغراض [المراقبة](/tag/المراقبة) المفتوحة التي تتطلب فهمًا معقدًا للفيديو.
نأمل في أن تمنحك هذه النتائج نظرة جديدة على الإمكانيات والتحديات التي تواجه [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في مجال [المراقبة](/tag/المراقبة). لقد أضحت الحاجة ملحة لاستكشاف المزيد من الأساليب لتعزيز [أداء](/tag/أداء) [النماذج](/tag/النماذج) في ظروف العالم الحقيقي. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).
هل النماذج اللغوية متعددة الوسائط جاهزة للمراقبة؟ تحليل مثير حول كشف الشذوذ بدون تدريب!
تستعرض دراسة جديدة فعالية النماذج اللغوية متعددة الوسائط (MLLMs) في كشف الشذوذ في الفيديوهات. النتائج تكشف عن تحديات كبيرة تتعلق بالدقة والموثوقية في البيئات الضوضائية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
