في عالم الذكاء الاصطناعي، تواصل طرق كشف الانحرافات في الفيديو (Video Anomaly Detection - VAD) تطورها، مما أدى إلى تطوير إطار عمل مبتكر يُعرف باسم CoReVAD. يعتمد الحل الجديد على التفكير السياقي، مما يعني أنه يمكنه العمل بفعالية دون الحاجة إلى تدريب مكلف وتقنيات متخصصة قد تزيد من الاعتماد على المجال.
حتى الآن، كانت معظم الطرق الحالية تكشف عن الانحرافات من خلال الإخراجات التي تقدم فقط درجات انحراف عددية، مما يجعل من الصعب الفهم لماذا تُعتبر بعض الأحداث غير طبيعية. لكن CoReVAD، يستفيد من التقدم في نماذج الرؤية-اللغة (Vision-Language Models - VLMs) ليمكّن من كشف الانحرافات وتوفير تفسيرات تُفسر للبشر.
بدلاً من اللجوء إلى خطوات تدريب إضافية مُعقدة أو الاعتماد على نماذج لغوية كبيرة (Large Language Models - LLMs)، يقدم CoReVAD إطارًا يمكنه مباشرة توليد درجات الانحراف والأوصاف الزمنية باستخدام نموذج VLM واحد فقط. ولتقليل الضوضاء في النتائج المتولدة، تم إدخال وحدة تنظيف الاستجابة المحلية (Local Response Cleaning - LRC) المعتمدة على تحقيق التوازن بين الرؤية والنص.
كما يضيف CoReVAD سياقًا زمنيًا عالميًا وتقدمًا عبر تحسينات تعتمد على تقنية softmax، التنعيم الغاوسي، وتقدير الوزن وفقًا للموقع.
أظهرت التجارب التي تمت على مجموعة بيانات UCF-Crime و XD-Violence أن CoReVAD يُحقق أداءً تنافسيًا بين الأساليب التي لا تتطلب تدريبًا، بينما يُقدم تفسيرات موثوقة وواضحة لكل حالة انحراف. يمكنك الاطلاع على الكود الرسمي لهذا الإطار المبتكر عبر الرابط: https://github.com/Muk-00/CoReVAD.
ثورة في كشف الانحرافات الفيديو: إطار CoReVAD للتفكير السياقي بدون تدريب
تقدم CoReVAD نهجًا مبتكرًا لكشف الانحرافات في الفيديو دون الحاجة إلى تدريب مكلف، مستفيدةً من نماذج الرؤية واللغة. ستحصل على نتائج دقيقة وتفسيرات واضحة لكل حدث غير معتاد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
