في عالم يزداد تعقيدًا بسبب الحركة المرورية المتزايدة، يصبح الكشف عن الشذوذ في مقاطع الفيديو الخاصة بمراقبة الطرق السريعة أمرًا حيويًا لضمان السلامة العامة. على الرغم من التقدم الكبير الذي حققته نماذج اللغة والرؤية (Vision-Language Models) في معالجة البيانات الصورية، إلا أن التحديات تبقى كبيرة، خصوصًا عند التعامل مع الأهداف التي تكون بعيدة والتي تظهر حركات غير طبيعية subtile vehicles motions.

لذلك، تم تقديم إطار عمل مبتكر يسمى VIBES، والذي يعتمد على التعاون غير المتزامن ويجمع بين قوة VLMs والاستدلال البايزي. من خلال تقديم وحدة استدلال بايزي عبر الإنترنت، يقوم هذا النظام بتقييم مسارات المركبات بشكل مستمر، مما يُعزز حدود السلوكيات القياسية ويساعد في تحديد مواقع الشذوذ بدقة في المكان والزمان.

عوضًا عن معالجة تدفق الفيديو المستمر، يركز النموذج فقط على المناطق البصرية المحددة من قبل المحفز، مما يقلل من ضعف الانتباه ويتيح عملية استدلال دقيق.

أظهرت التقييمات الشاملة أن VIBES لم يحقق فقط دقة أعلى في كشف الشذوذ على الطرق السريعة، بل أيضًا أدنى تكاليف حسابية، مما يعزز من كفاءة النظام في الوقت الحقيقي وقابليته للفهم في بيئات مرور متنوعة.