في عالم الصناعة المتطور، يعد تقييم النموذج الذكي للغة (LLM) في مجال الشراء الصناعي أمراً بالغ الأهمية. حيث يعتزم العديد من المصنعين استخدام تقنيات الذكاء الاصطناعي لتحسين عملياتهم، لكن هل يمكن أن تثق في دقة هذه الحلول؟ هنا يأتي دور أداة جديدة تُدعى IndustryBench.

تتميز IndustryBench بأنها معيار تقييم يتألف من 2,049 عنصرًا مخصصًا للأسئلة والأجوبة في مجالات الشراء الصناعي، يستند إلى المعايير الوطنية الصينية (GB/T) ويشمل سجلات المنتجات الصناعية المهيكلة. تم تنظيم هذا النموذج حسب سبعة أبعاد من القدرات وعشر فئات صناعية، مع مستويات صعوبة مستندة إلى تحليلات خبراء.

واحدة من القضايا الرئيسية التي يواجهها المستخدمون هي مدى موثوقية الإجابات المقدمة من نماذج اللغات الضخمة. تظهر الدراسات أن 70.3% من الإجابات التي يقدمها الذكاء الاصطناعي لا تتجاوز فحص التحقق الخارجي، مما يوضح أن موثوقية هذه التكنولوجيا لا تزال بحاجة إلى تحسين.

المفاجأة الكبرى هي أن أفضل نظام لم يصل سوى إلى تقييم 2.083 ضمن مقياس من 0 إلى 3، مما يعني أن هناك مجالاً شاسعاً للتطور. وعلاوة على ذلك، أظهرت النتائج أن الضعف المستمر كان في مراقبة المعايير والمصطلحات المستخدمة، مما يعكس تحديات الترجمة الواضحة. كما تبين أن تعقيد الإجابات الطويلة يعزز من خطر وجود معلومات غير مؤكدة تؤثر سلبًا على الأمان.

تتطلب مرحلة تقييم نماذج الذكاء الاصطناعي الصناعية التشخيص القائم على مصادر موثوقة وتأخذ في الاعتبار المتطلبات الأمنية بدلاً من الاعتماد فقط على الدقة الكلية. تأتي IndustryBench مع جميع التعليمات اللازمة وسكربتات التقييم ووثائق البيانات للمساعدة في رفع مستوى التطبيقات المستقبلية للذكاء الاصطناعي في الصناعة. وبالتالي، يعتبر استخدام IndustryBench خطوة هامة نحو مستقبل أكثر أمانًا وموثوقية.