في عالم يتزايد فيه الاعتماد على الفيديوهات كوسيلة لتبادل المعلومات ولتقديم الخدمات، يرتفع الطلب على أنظمة قادرة على التعرف على المخاطر وتقديم التحذيرات في الوقت المناسب. هنا يأتي دور معيار PaSBench-Video، الذي تم تطويره لاختبار فعالية نماذج اللغات الكبيرة متعددة الوسائط (Multimodal Large Language Models - MLLMs) في تقديم التحذيرات الاستباقية خلال نافذة الخطر.

يتضمن هذا المعيار الذي يضم 740 فيديو مقسمة بين 481 فيديو تشمل على مخاطر و259 فيديو تعتبر آمنة، أربع مجالات رئيسية: القيادة، الرعاية الصحية، الحياة اليومية، والإنتاج الصناعي. تستند مقاطع الفيديو المعرضة للخطر إلى توقيت دقيق حيث تحتوي على إشارات تحذر من خطر محتمل قبل وقوع الحادث. لكن النتائج كانت مخيبة للآمال، حيث أظهرت الاختبارات على 13 نموذجًا من نماذج MLLMs أن أيًا منها لم يتجاوز نسبة 20% في أكثر المقاييس صرامة.

تشير البيانات إلى أن دقة التحذيرات تكون مرتبطة بشكل وثيق بمعدل الإيجابيات الكاذبة، إذ أن هناك ترابطًا قويًا (0.64) بين زيادة دقة الكشف عن المخاطر والزيادة في التحذيرات غير الصحيحة. تقع الفجوة في الأداء بشكل حاد حسب المجال؛ حيث حققت النماذج معدل استرجاع معتدل عند معدلات منخفضة من الإيجابيات الكاذبة في الحياة اليومية، لكن في القيادة، كانت التحذيرات تُصدر بشكل عشوائي.

هذه النتائج تشير إلى وجود حاجة ملحة لتحسين نماذج الذكاء الاصطناعي بحيث تتمكن من تحليل المشاهد على نحو أعمق وتفكير في المخاطر الناشئة بدلًا من الاعتماد فقط على الأنشطة السطحية. فهل يمكن لهذه النماذج أن تحقق تحسنًا واقعياً في المستقبل القريب؟ لنرى!