في عالم الذكاء الاصطناعي، حيث تزداد أهمية التقييمات الخارجية لحوكمة الأنظمة، يواجه المدققون المستقلون تحديات حقيقية مع عدم قدرتهم على الوصول الكامل للنماذج المنشورة. غالبًا ما يُعتمد على التفاعلات القائمة على الاستفسارات لتقييم العدالة، لكن معظم الطرق الحالية تنطلق من فرضيات تقييدية مثل وجود مجموعات بيانات ثابتة واختبارات إحصائية محددة.

في هذه الدراسة، قدمنا إطارًا جديدًا يجسد مشكلة التدقيق في العدالة كمسألة اختبار فرضيات تسلسلي معرف بالتحمل، مع الاعتبار لقيود الوصول إلى مخرجات النماذج. يعتمد هذا الإطار على تقنية الاحتمالات العامة التسلسلية، مما يسمح للمدققين بتجميع الأدلة من مجموعة تدقيق محدودة وإيقاف العملية بمجرد جمع الأدلة الكافية للامتثال أو لانتهاك المعايير.

لقد تم تطبيق هذا الإطار لإجراء تدقيقات تستند إلى العدالة الإحصائية وتكافؤ الفرص، وتم توسيعه ليشمل تدقيقات تعتمد على مقاييس الجودة عند توفر معلومات أكثر غنى.

تشير النتائج إلى أن كل من مقياس العدالة ومستوى الوصول إلى النماذج يؤثران بشكل كبير على كفاءة التدقيق، حيث إن فوائد المعلومات الإضافية ليست متساوية عبر جميع ظروف التدقيق. في بعض الحالات، يمكن أن تؤدي المخرجات الأكثر غنى إلى تقليل عدد الاستفسارات المطلوبة، بينما قد تكون الفوائد في الحالات القريبة من العتبة محدودة.

يُعتبر هذا العمل إضافة قيمة لما هو متاح، حيث يقدم إطارًا إحصائيًا عمليًا لتدقيق العدالة تحت قيود النشر الواقعية. كيف ترى مستقبل تحقيق العدالة في الأنظمة الذكية؟ شاركونا آراءكم في التعليقات.