في عالم التصنيع الحديث، يعد اكتشاف الشذوذ مسألة حيوية للحفاظ على جودة الإنتاج. إلا أن معظم مجموعات البيانات الحالية تركز بشكل رئيسي على الصور الثابتة أو المناظر القليلة، مما يعيق قدرتنا على مراقبة الجودة بشكل فعال في سيناريوهات تستدعي الفحص المستمر.

مؤخراً، تم تقديم نظام جديد يدعى MMVIAD (كشف الشذوذ الصناعي متعدد الزوايا والمهام)، وهو الأول من نوعه في تقديم مجموعة بيانات فيديو متعددة الزوايا للتحليل الصناعي. يهدف هذا الابتكار إلى تسهيل اكتشاف الشذوذات بواسطة تقديم مقاطع تفتيش قصيرة مدتها ثانيتان، مع حركة كاميرا تصل إلى 120 درجة، وتغطي 48 فئة من الأجسام، و14 بيئة، و6 أنواع من الشذوذات الهيكلية.

يدعم MMVIAD مجموعة من المهام بما في ذلك اكتشاف الشذوذ، تصنيف العيوب، تصنيف الأجسام، وتحديد زمن ظهور العيوب. تُظهر تقييمات نظامية على هذا النموذج أن نماذج التعلم العميق التجارية والمفتوحة المصدر لا تزال بعيدًا عن مستوى أداء الإنسان، خاصةً في التعرف على العيوب الدقيقة وتحديد الزمان.

لتحسين فهم الشذوذات، تم تطوير نظام تدريبي مكون من مرحلتين، حيث يقوم PS-SFT (التدريب المدعوم بهيكل الإدراك) بتطوير القدرة على فهم الشذوذ، بينما يعمل VISTA-GRPO (تحسين السياسة النسبية الهيكلية الزمنية بدعم مرئي) على تحسين النموذج من خلال مكافآت تتعلق بالعيوب ومدى رؤيتها عبر الزمن، ليظهر النموذج النهائي VISTA. في الاختبارات على بيانات MMVIAD-Unseen، حقق النموذج VISTA تقدمًا ملحوظًا في الأداء، حيث ارتفعت نقاطه المتوسطة عبر المهام الأربعة من 45.0 إلى 57.5، متجاوزًا نموذج GPT-5.4.

يمكنك استعراض الشفرة المصدرية لهذا الابتكار المذهل عبر الرابط التالي: [رابط GitHub](https://github.com/Georgekeepmoving/MMVIAD). هل تعتقد أن هذا الابتكار سيغير مستقبل التفتيش الصناعي؟ شاركونا آراءكم في التعليقات!