في عالم صناعة الفولاذ، يعد تحليل عيوب السطح جزءًا أساسيًا من ضمان الجودة، إلا أن أنظمة التقييم الحالية تعتمد عادة على تسميات بسيطة، مما يعيق الفهم العميق والتقويم الشامل لنماذج الرؤية واللغة. للتغلب على هذا التحدي، تم تقديم SteelDefectX، وهي مجموعة بيانات مبتكرة تجمع بين الرؤية واللغة مع تسميات نصية متعددة الأشكال. تضم هذه المجموعة 7,778 صورة تتوزع على 25 فئة من العيوب.

على مستوى الفئة، تقدم مجموعة البيانات أسماء العيوب، والخصائص البصرية النمطية، والأسباب الصناعية. بينما على مستوى العينة، يتم تصنيف كل صورة باستخدام ثلاثة أشكال من النصوص:
1. أوصاف طبيعية خالية من الشكل.
2. تسميات خصائص منظمة.
3. جمل مبنية حسب النموذج.

تساهم هذه التسميات في توفير إشراف نصي مرن بمستويات تعبيرية وتحكم مختلفة، مما يحسن بشكل عام من جودة التحليل. وقد أظهرت النتائج التجريبية وجود توازن بين الهيكل والمرونة في التمثيلات النصية؛ حيث توفر الخصائص المنظمة توازنًا أكثر استقرارًا للمعنى، في حين أن الأوصاف الطبيعية تعزز إمكانية النقل وتحسين التوجيه المكاني التفصيلي.

تسلط هذه النتائج الضوء على الدور الحاسم لتصميم النصوص في التعلم المتعلق بالرؤية واللغة الصناعية. يعد SteelDefectX نقطة انطلاق جديدة لدراسة التوافق الدلالي والتعميم في التعلم الآلي في مجال الصناعة. ولمن يرغب في استكشاف المزيد، فإن الشيفرة ومجموعة البيانات متاحة على [رابط].