تتجه الأنظار [نحو](/tag/نحو) [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية) [متعددة الوسائط](/tag/متعددة-الوسائط) (Multimodal Large Language [Models](/tag/models) - [MLLMs](/tag/mllms)) التي برزت كأداة قوية في [فهم الفيديوهات](/tag/[فهم](/tag/فهم)-الفيديوهات). ومع ذلك، تبقى فعاليتها في [كشف الشذوذ](/tag/[كشف](/tag/كشف)-[الشذوذ](/tag/الشذوذ)) في [التطبيقات](/tag/التطبيقات) الحقيقية موضوع نقاش وجدل.

يتيح الانتقال من الأساليب التقليدية التي تعتمد على إعادة البناء أو الإشارات المستندة إلى الوضع استخدام هذه [النماذج](/tag/النماذج) كأداة لفهم [اللغة](/tag/اللغة) لأغراض [كشف الشذوذ](/tag/[كشف](/tag/كشف)-[الشذوذ](/tag/الشذوذ)). في هذا السياق، قمنا بإجراء [تقييم](/tag/تقييم) شامل لأحدث ممارسات [MLLMs](/tag/mllms) باستخدام [معايير](/tag/معايير) ShanghaiTech وCHAD، مع إعادة صياغة مهمة [كشف الشذوذ](/tag/[كشف](/tag/كشف)-[الشذوذ](/tag/الشذوذ)) ([Video Anomaly Detection](/tag/video-anomaly-detection) - VAD) كمهمة [تصنيف](/tag/تصنيف) ثنائية تحت إشراف زمني ضعيف.

ركزنا على كيفية تأثير تحديد المطالب الزمنية وأطوال النوافذ الزمنية (من 1 إلى 3 ثوانٍ) على الأداء، مع [تحليل](/tag/تحليل) التوازن بين [الدقة](/tag/الدقة) والاسترجاع. كانت النتائج مثيرة للقلق، حيث أظهرت [النماذج](/tag/النماذج) ميلاً محافظًا في الإعدادات بدون تدريب، حيث كانت ثقتها عالية ولكنها تفضل بشكل غير متناسب الفئة "الطبيعية"، مما أدى إلى [دقة](/tag/دقة) مرتفعة مع انخفاض ملحوظ في الاسترجاع.

لقد أثبتنا أن [توجيهات](/tag/توجيهات) محددة للفئة يمكن أن تُحسّن من [دقة](/tag/دقة) نتائج التصنيف، حيث ارتفع الحد الأقصى لمؤشر F1 على ShanghaiTech من 0.09 إلى 0.64، لكن يظل الاسترجاع عقبة حرجة. تُبرز هذه النتائج [الفجوة](/tag/الفجوة) الكبيرة في [أداء](/tag/أداء) [MLLMs](/tag/mllms) في البيئات الضوضائية، مما يُعد أساسًا للعمل المستقبلي في [تحسين الدقة](/tag/[تحسين](/tag/تحسين)-[الدقة](/tag/الدقة)) المرتكزة على الاسترجاع ومعايرة [النماذج](/tag/النماذج) لأغراض [المراقبة](/tag/المراقبة) المفتوحة التي تتطلب فهمًا معقدًا للفيديو.

نأمل في أن تمنحك هذه النتائج نظرة جديدة على الإمكانيات والتحديات التي تواجه [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في مجال [المراقبة](/tag/المراقبة). لقد أضحت الحاجة ملحة لاستكشاف المزيد من الأساليب لتعزيز [أداء](/tag/أداء) [النماذج](/tag/النماذج) في ظروف العالم الحقيقي. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).