في عالم يتزايد فيه الاعتماد على الذكاء الاصطناعي (AI) لمراقبة الامتثال، أصبح من الضروري تقديم أدلة موثوقة وإشارات حسابية قابلة للتتبع. ومع ذلك، فإن مجموعات بيانات اكتشاف شذوذ الفيديو الحالية تركز على التصنيف الثنائي للأحداث، مما يفتقر إلى التحليل القابل للتفسير المدعوم بالقواعد اللازمة لسيناريوهات الامتثال في العالم الحقيقي. في هذا السياق، نعرض FoodMonitor، معياراً مبتكراً لتحليل الامتثال القابل للتفسير في مراقبة المطابخ التجارية.

يتكون FoodMonitor من 477 مقطع فيديو تحتوي على 3,307 ملاحظة انتهاك، ضمن تصميم مزدوج القناة يغطي انتهاكات على مستوى الأشخاص والبيئة. كل ملاحظة تحدد القاعدة المنتهكة، والسلوك غير المتوافق، ومن الذي قام به، مع صناديق إحاطة على مستوى الإطارات.

لقد أنشأنا بروتوكول تقييم موحد مزود بآلية مطابقة من مرحلتين تقيم بشكل منفصل كل من التوضع المكاني وفهم المعنى، إلى جانب مقياس مركب ($C_{ ext{score}}$) الذي يوازن بين أداء كشف البيئة والأشخاص. تكشف تقييمات منهجية لعدة نماذج لغات كبيرة متعددة الأنماط عن أن أفضل نموذج حقق فقط 0.360 $C_{ ext{score}}$، مع ظهور التوضع المكاني وفهم القواعد الدقيقة كعقبات رئيسية.

يتضح من تحليلنا وجود وضعين مميزين للفشل: أخطاء مهيمنة على التوضع وأخطاء مهيمنة على المعنى، مما يوفر رؤى تشخيصية لتطوير النماذج المستقبلية.