في عالم التكنولوجيا الحديثة، تعتبر عمليات الكشف عن anomalies (anomaly detection) في مقاطع الفيديو من التحديات الكبيرة التي تواجه الباحثين. حيث كانت الطرق التقليدية تعتمد على التصنيف الثنائي أو كشف الـ outlier، مما جعل الفهم العميق للظواهر الغريبة أمراً بعيد المنال. نقدم لكم اليوم VANGUARD (Video Anomaly Understanding through Reasoning and Grounding)، النظام المبتكر الذي يعيد تصور عملية الكشف عن anomalies من خلال دمج تصنيف anomalies والتأصيل المكاني مع نماذج لغوية متعددة الوسائط (Vision-Language Models).
بفضل هذا النظام، يمكن تحقيق فهم أعمق للمشاهد، فمن المعروف أن النماذج التقليدية تواجه صعوبات في التأصيل المكاني الدقيق، وغالباً ما تنتج صناديق حدودية (bounding boxes) غير صحيحة أو مزيّفة. يتميز VANGUARD بإطار عمل يشتمل على ثلاث مراحل تعليمية تتدرج في أهداف التدريب: أولاً، تدفئة المصنف على ميزات الهيكل المجمد، ثانياً، تأصيل مكاني مُعدل باستخدام LoRA، وأخيراً، توليد أفكار متسلسلة.
لحل مشكلة نقص التوصيف الشائع في مقاييس VAD، يعتمد VANGUARD على أنبوبية تفاعلية بين المعلم والطالب، حيث تقوم نماذج اللغة بتوليد مسارات تفكير منظمة لكل مقطع باستخدام توصيلات يدوية متاحة من مجموعة بيانات UCA. كما تقدم GroundingDINO إشرافًا على صناديق الحدود.
نتائج النظام كانت مذهلة، حيث حقق VANGUARD نسبة 94% في ROC-AUC و84% في F1 أثناء تقديم تفسيرات سلسة وذات معنى، وهذه القوة غير متوفرة في الطرق التقليدية السابقة.
بالإضافة إلى ذلك، تحقق انتقاليّة نموذج VANGUARD عبر مجالات مختلفة، حيث تمكن من التكيف دون الحاجة إلى تعديل في المجال الهدف، مما يعكس قوة ومصداقية النظام. فإذا كنت مهتمًا بعالم الذكاء الاصطناعي وكشف الأنماط، فلا تفوت هذا التطور المثير.
ما رأيكم في هذه الابتكارات والتطورات في الذكاء الاصطناعي؟ شاركونا في التعليقات.
تحويل الفيديو إلى أداة قوية: نموذج VANGUARD للكشف عن anomalies بطريقة مبتكرة!
تعرّف على VANGUARD، النظام الثوري في الكشف عن anomalies في الفيديو باستخدام نماذج لغوية متعددة الوسائط. يدمج بين تصنيف anomalies والتأصيل المكاني لإحداث تحول جذري في هذه التقنية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
