في عالم التكنولوجيا الحديثة، يبدو أن التقنيات الاستثنائية مثل نماذج اللغات متعددة الوسائط (Multimodal Large Language Models) قد بدأت تسيطر على مجالات متعددة، إلا أنها كانت تواجه تحديات كبيرة في مجالات محددة خاصةً الكشف عن الشذوذ الصناعي (Industrial Anomaly Detection - IAD). هذه النماذج، على الرغم من نجاحها في الفهم المرئي الطبيعي، تعاني من قصور في التعامل مع الصور الصناعية بسبب اعتمادها على بيانات عامة من الويب وعدم قدرتها على مقارنة الصور بدقة.
لحل هذه المشكلة، تم تطوير نظام AD-Copilot، وهو مساعد تفاعلي يستخدم نماذج التعلم الآلي المتقدمة لرفع كفاءة الكشف عن الشذوذ. يعتمد AD-Copilot على تقنية جديدة تُسمى Comparison Encoder، والتي تستغل الانتباه المتبادل بين خصائص الصور المزدوجة لتعزيز إدراك التفاصيل الدقيقة لهذا النوع من الصور.
كما قامت المنظومة بتصميم سلسلة جديدة من البيانات للمعالجة، حيث يتم استخراج المعرفة من الصور الصناعية المحدودة التوصيف، مما يُمكّن من إنشاء مجموعة بيانات كبيرة تحت اسم Chat-AD، غنية بالإشارات الدلالية الضرورية لعمليات الكشف عن الشذوذ.
تشير التجارب إلى أن AD-Copilot حقق دقة مذهلة بلغت 82.3% على معيار MMAD، متجاوزًا جميع النماذج الأخرى دون وجود تسرب للبيانات. وبالإضافة إلى ذلك، سجلت الأدوات المستخدمة في AD-Copilot تحسينًا يصل إلى 3.35 مرة مقارنة بالنماذج السابقة.
الأكثر إثارة هو أن AD-Copilot تجاوز أداء الخبراء البشريين في عدة مهام من مهام الكشف عن الشذوذ، مما يعكس إمكاناته كأداة موثوقة في عمليات التفتيش الصناعية الحقيقية. ولا تنتهي المزايا هنا، بل سيتم إتاحة جميع مجموعات البيانات والنماذج للجمهور، لتكون في متناول الجميع للاستفادة منها.
AD-Copilot: مساعد ثوري للكشف عن الشذوذ الصناعي من خلال المقارنة البصرية الذكية!
تمتاز نماذج اللغات متعددة الوسائط (MLLMs) بنجاحها في الفهم المرئي الطبيعي، لكن AD-Copilot يتجاوز ذلك ليصبح مساعدًا موثوقًا للكشف عن الشذوذ الصناعي. يتمكن هذا النظام من تحسين دقة الكشف من خلال مقارنات بصرية دقيقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
