في عالم التكنولوجيا المتقدمة، يمثل التعلم بدون أمثلة (Zero-Shot Learning) خطوة مثيرة نحو تقديم حلول مبتكرة لتحديات الصناعة. فقد حققت نماذج اللغات البصرية الكبيرة (Large Visual Language Models) نجاحًا ملحوظًا في مهام الرؤية، ولكن التحديات بين البيئات الصناعية والطبيعية جعلت تطبيق هذه النماذج في الصناعة أمرًا صعبًا.

إن الاعتماد على تلميحات مستخدمين لتجزئة الأجسام في النماذج الحالية يؤدي غالبًا إلى أداء دون المستوى المطلوب بسبب إدماج بكسلات غير ذات صلة. ولتجاوز هذه العقبات، تقدم ورقة بحثية جديدة مجموعة بيانات صناعية مفتوحة ونموذج جديد معزز لتلميحات نصية وصورية (Refined Text-Visual Prompt - RTVP) لاكتشاف العيوب في الصناعة.

تتضمن مجموعة البيانات (Multi-Modal Industrial Open Dataset - MMIO) أكثر من 80,000 عينة، مُقسّمة إلى 6 فئات رئيسية و18 فئة فرعية، مما يجعلها أكبر مجموعة بيانات تمهيدية متعددة المشاهد للتعلم بدون أمثلة في الصناعة. توفر هذه البيانات المدخلات الحيوية لنماذج مفتوحة في المستقبل.

بفضل RTVP، الذي يتميز بآليتين رئيسيتين، يمكن للنماذج استيعاب الفروق بين المحتوى المرئي والنصّي بشكل أفضل. إليكم أبرز مزايا RTVP:
1. تصميم آلية تكيف معززة للمجالات المخصصة باستخدام نماذج كبيرة تتلاءم مع الصناعة، مما يعزز القدرة على التعميم.
2. توليد تلميحات بصرية تلقائيًا من الصور، مع الأخذ في الاعتبار التفاعلات بين التلميحات النصية والمرئية التي أغفلتها النماذج السابقة.

نتيجة لهذا، حقق RTVP أداءً رائدًا (SOTA) بنسبة 42.2% و24.7% في سيناريوهات الصفر والقصور في مجموعة بيانات MMIO. لذا، يبدو أن هذا النموذج الجديد لا يعد مجرد تقدم تكنولوجي، بل تغييرًا قواعد اللعبة لصناعة الكشف عن العيوب.

هل أنتم مستعدون لمشاهدة الثورة في تكنولوجيا الكشف الصناعي؟ شاركونا آراءكم في التعليقات!