تتطلب التخطيط للترميم الصناعي استنادًا إلى بيانات تشغيلية منسقة بدلًا من النصوص الحرة، حيث يتعين على المخططين تقدير ما إذا كان النموذج الأولي المسجّل حديثًا سيحتاج إلى ترميم، وما حزمة الترميم التي يحتاجها، ومدة العمل اللازمة. في هذا السياق، أجرينا دراسة على مجموعة بيانات صناعية تربط بين نظام تسجيل النماذج الأولية (284,271 مركبة) ونظام إدارة الترميمات (48,716 زيارة تم تنظيفها).

قمنا بمقارنة عدة استراتيجيات قائمة على نماذج اللغات الضخمة (LLMs) مع نماذج التعلم الآلي القوية الخاصة ببيانات الجدول. تم استخدام ثلاثة أساليب مختلفة تشمل ميزات التضمين (Amazon Titan)، التصنيف المباشر باستخدام المدخلات المحفزة (Claude Sonnet 4)، ومنهجية التجميع ML+LLM.

تشير النتائج إلى أن النماذج التقليدية (مثل التجميعات الشجرية) تظل الأقوى كنماذج قائمة بذاتها، لكن البيانات تبين نمطًا متسقًا فيما يتعلق بـ LLMs: حيث تبين أن ميزات التضمين تظل مفيدة حتى في قواعد البيانات، بينما يتدهور أداء المدخلات المحفزة بمجرد إزالة الإشارات الدلالية (حيث حصلت على AUC ثنائي = 0.500؛ وF1 الموزون لفئة متعددة = 0.018). ومع ذلك، توفر منهجية التجميع الهجين أفضل نموذج متعدد الفئات بوزن F1 يقدر بـ 0.626، موضحة بذلك فعالية LLMs كعنصر إضافي وليس كبديل للنماذج التقليدية القوية في بيئات البيانات الصناعية المحصورة بالخصوصية.

هذه النتائج تفتح الأبواب للنقاش حول كيفية استفادتنا من التقنيات الحديثة في تحسين دقة التنبؤات في مجالات العمل المختلفة. ما رأيكم في هذه التطورات؟ شاركونا في التعليقات!