في عالم الذكاء الاصطناعي وأنظمة المعلومات، يُعتبر تقييم الأداء عملية محايدة بالعادة، لكن الجديد في الأمر هو أن التقييم في الأنظمة العملياتية غالبًا ما يتأثر بالعمليات التي تولد التسميات. لا تهدف هذه الدراسة إلى تحسين أداء التصنيف بحد ذاته، بل تسلط الضوء على صحة قياسات الأداء تحت نظم سلطات التسميات المختلفة.
تُعتبر 'سيادة التقييم' مفهومًا جديدًا يُعرف بمدى استقلالية مقاييس الأداء عن سلطة التسميات ونمط الإشراف. وكما أظهرت التجارب، فإن الأنظمة المدعومة بالبيانات الضخمة غالبًا ما تواجه مشكلة التسميات غير الكاملة وغير المتسقة أو المدعومة جزئيًا، ما يؤثر سلبًا على الأداء.
لذا يقدم الباحثون إطار عمل متعدد المسارات يتيح تنويع مصادر التسميات المستخدمة في التدريب والتقييم. ومن خلال دراسة تصنيف البيانات العلمية الهرمية متعددة التسميات، أظهرت النتائج أن النماذج التي تحقق أداءً قويًا في التقييم العملي ('التقييم الفضي') تتدهور بشكل ملحوظ عند الانتقال إلى التقييم المستقل ('التقييم الذهبي'). على سبيل المثال، انخفض معدل Micro-F1 من حوالي 0.54 إلى 0.03.
الأهم من ذلك، تبقى مقاييس الترتيب فوق الخط الأساسي، مما يكشف عن الفجوة بين إشارة النموذج الكامنة وصلاحية التصنيف. توضح هذه النتائج أن مقاييس الأداء الشائعة قد تعكس التطابق مع عمليات التسمية بدلاً من القدرة التنبؤية الحقيقية. لذلك، تم إعادة تصور صلاحية التقييم كخاصية على مستوى النظام تتشكل بسبب حوكمة التسميات، مع تقديم منهجية عملية لتدقيق الأنظمة الذكية التي تعمل تحت إشراف ضعيف.
ثورة تقييم القوة في أنظمة المعلومات: إطار عمل مبتكر لتصنيف البيانات المدعومة جزئيًا
تستعرض هذه الورقة البحثية مفهوم 'سيادة التقييم' في أنظمة المعلومات، موضحة تأثير العمليات التقييمية على جودة النتائج. كما تقترح إطار عمل متعدد المسارات لتحسين موثوقية قياسات الأداء في الأنظمة المدعومة جزئيًا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
