تواجه أدوات تقييم نماذج الذكاء الاصطناعي، ولا سيما نماذج اللغات الضخمة (Large Language Models)، تحديات كبيرة عندما يتعلق الأمر بالكشف عن تلوث المعايير، حيث تظهر أمثلة التقييم في بيانات تدريب النموذج، مما يهدد دقة هذه التقييمات. بالرغم من وجود أدوات إحصائية للكشف عن انتماء بيانات التدريب، إلا أنها تم اختبارها في ظروف أكاديمية قاسية حيث تكون مجموعات البيانات متجانسة وشفافة.
في دراسة جديدة، تم التعرف على وضعين منخفضي الدراسة كأسباب محتملة لفشل أدوات الكشف، وهما "تغير التوزيع" (Distribution Shift) الذي يحدث عندما تتعارض مجموعات البيانات المشبوهة ومجموعات التحقق مع افتراض الاستقلالية، و"قيود الحجم" (Scale Constraints) التي تنشأ بسبب كون المعايير أصغر بمراحل عن مجموعات البيانات المستخدمة في التدريب.
تمت دراسة ثلاث طرق رائدة: استدلال مجموعات بيانات نماذج اللغات الضخمة، واستدلال المجموعات بعد العمليات (Post-Hoc Dataset Inference)، وCoDeC عبر 27 نموذجاً من عائلات متعددة، بما في ذلك Pythia وOLMo2، بالإضافة إلى نماذج متخصصة في مجالات ثقافية وطبية.
أظهرت النتائج أن من ضمن 335 تقييمًا، كانت النتائج صحيحة في 199 منها فقط. كما أثبت استدلال مجموعات البيانات حدوث إيجابيات زائفة خلال تغير التوزيع، بينما كان لاستدلال المجموعات بعد العمليات قدرة غير كافية على مستوى المعايير. وأخيراً، كانت إشارات CoDeC غير كافية للتحقق من تقسيمات المعايير.
تكشف هذه النتائج عن فجوة موثوقية منهجية بين التقييمات المعملية وتلك التي تتم في السياق العملي، مما يشير إلى أن الكشف الإحصائي لا يمكنه بعد أن يحل محل الشفافية في مصدر البيانات. ولتشجيع المزيد من الأبحاث، تم فتح مصدر المعايير المستخدمة في الدراسة.
الفجوة في موثوقية تدقيق المعايير: هل تستطيع أدوات الكشف عن تلوث البيانات مجاراة الواقع؟
تتطرق هذه المقالة إلى مشكلة تلوث المعايير في الذكاء الاصطناعي، حيث يؤثر إدراج أمثلة التقييم في بيانات التدريب على دقة التقييم. كما تكشف عن فجوة موثوقية في أدوات الكشف عن تلوث البيانات بين الأبحاث الأكاديمية والواقع العملي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
