في عالم الذكاء الاصطناعي، تظل نماذج الرؤية واللغة الضخمة (Large Visual-Language Models - LVLMs) في صدارة الابتكارات، حيث حققت نجاحات ملحوظة في مهام الرؤية الطبيعية. ومع ذلك، تواجه تطبيقاتها في الكشف عن العيوب الصناعية تحديات كبيرة نتيجة لوجود قيدين رئيسيين: الأول هو نقص مجموعات بيانات صناعية كبيرة ومتنوعة تشمل فئات عيوب مختلفة عبر مجالات متعددة، والثاني هو الاعتماد على طلبات يدوية مثل النقاط والصناديق والأقنعة، مما قد يُدخل إدخالات ذات طابع شخصي وتفتقر إلى التفاعل النصي والبصري الضروري لفهم أدق.

لحل هذه المشاكل، تم تقديم معيار جديد يعرف باسم مجموعة البيانات متعددة الوسائط الصناعية المفتوحة والمغلقة (Multi-Modal Industrial Open-Closed benchmark - MMIOC-1M)، والذي يحتوي على أكثر من مليون عينة تُغطي 14 فئة رئيسية و29 مشهداً صناعياً و351 فئة فرعية من العيوب. يعتبر MMIOC-1M أكبر معيار موحد يدعم كلاً من الكشف عن العيوب في بيئات مفتوحة ومغلقة، مما يوفر بيانات قيمة لعملية التدريب المسبق لنماذج LVLMs في السيناريوهات الصناعية.

بالإضافة إلى ذلك، تم اقتراح شبكة طلب نصي-بصري مصفاة (Refined Text-Visual Prompt Network - RTVPNet)، التي تتضمن ثلاث ابتكارات رئيسية:
1. آلية إسقاط مجال مدعومة من خبراء، تسهل التكيف السريع لنماذج الرؤية العامة مع المجالات الصناعية.
2. استراتيجية عينة نادرة قائمة على الطاقة، تقوم تلقائياً بإنشاء طلبات بصرية مصفاة دون تدخل يدوي.
3. وحدة تفاعل نصي-بصري ثنائية الاتجاه، تعزز من التوافق والفهم الدلالي بين النص والصورة.

تظهر التجارب المكثفة أن RTVPNet تحقق أداءً رائداً على معايير متعددة مثل MMIOC-1M وLVIS وCOCO، مع الحفاظ على كفاءة في المعالجة الحسابية. يمكن الوصول إلى مجموعة البيانات والتعليمات البرمجية عبر الرابط التالي: https://github.com/hellozzk/MMIO.

إذا كنت مهتماً بمجال الكشف عن العيوب وكيفية استخدام الذكاء الاصطناعي لتحسين هذا العمليات، فما رأيكم في هذه الابتكارات؟ شاركونا آرائكم في التعليقات.