في عالم الذكاء الاصطناعي، تتجه الجهود نحو تطوير تقنيات قادرة على فهم الأحداث المفاجئة، مثل الحوادث، من خلال مقاطع الفيديو المراقبة. وفي هذا السياق، تم تقديم أسلوب جديد يُعرف بـ"فهم الحوادث بدون تعليم مسبق (Zero-Shot Understanding)"، والذي يهدف إلى تحديد متى يحدث تصادم، نوعه، ومكانه في إطار الفيديو باستخدام اللغة الطبيعية.

التقنية؟ ">كيف تعمل هذه التقنية؟



تستند هذه التقنية إلى عملية ثلاثية المراحل تساعد في تفكيك فهم الحادث إلى ثلاثة عناصر رئيسية: متى يحدث، ما نوعه، وأين يحدث. في المرحلة الأولى، تقوم الخوارزمية باستخراج نافذة زمنية قصيرة حول الحادث باستخدام تشابه الرؤية واللغة (Vision-Language Similarity).

أما في المرحلة الثانية، فتجري خوارزمية جديدة تعاطيًا مدفوعًا بالبيانات الوصفية (Metadata-Driven) من خلال أساليب متعددة ومتنوعة، حيث تستند إلى خمس وجهات نظر متميزة تشمل: الأساس، الحركة، الهندسة، التباين، وكسر التعادل. وتتم معالجة أي تباين في النتائج باستخدام أداة تحكيم ثنائية الانحدار المسؤولة عن قياس الاضطراب.

النتائج والمزايا



في المرحلة الثالثة، نقوم بتحديد موقع الحدث باستخدام كاشف مفتوح المفردات (Open-Vocabulary Detector) الذي يستند إلى نوع الحادث المتوقع وتصميم المشهد، ثم نجمع جميع الاكتشافات من الإطارات الرئيسية باستخدام المتوسط المرجح للدرجات. لقد أظهرت هذه العملية تحسينًا كبيرًا في نتائج الاختبارات، متجاوزة عدة معايير سابقة في مجال فهم الحوادث.

تعتبر هذه التقنية الأفضل في مجالها، حيث تُظهر أن تقسيم الفهم إلى مكونات زمنية، تصنيف دلالي، وتحديد مكاني يسمح بفهم أكثر موثوقية من استخدام التوجيه المباشر بمفرده. هذه الإنجازات تمثل خطوة مهمة نحو تحسين الأمان والكفاءة في معالجة الحوادث.