في عالم الذكاء الاصطناعي (AI)، لا تزال أهمية تقييم فعالية التقنيات القائمة في تزايد مستمر. وقد تم تقديم عمل جديد يعزز من طريقة تقييم الذكاء الاصطناعي من خلال تجارب التحكم العشوائي (RCTs). يحدد هذا البحث إطارًا أساسيًا لتوحيد تقييم الذكاء الاصطناعي، والذي يشار إليه أحيانًا بدراسات تعزيز الأداء البشري.

يستند العمل إلى ممارسات تجريبية معترف بها في مجالات مثل هندسة البرمجيات، والاقتصاد، والعلوم الصحية والنفسية، حيث تبنى الباحثون إطار الرباعية للموثوقية (Shadish et al., 2002) وأوسعوه بمبدأ خامس يركز على الشفافية، وإمكانية التكرار، والتحقق، مستمدًا من إرشادات تعزيز الشفافية والانفتاح (TOP) من مركز العلوم المفتوحة (2025).

تم تشغيل جميع المبادئ الخمسة في 33 إرشادًا تم تعديلها لتناسب سياقات تقييم الذكاء الاصطناعي، حيث تم التعبير عنها كمتطلبات مع تبريرات وتعليمات تنفيذ وأساسيات أدلة. يتم وضع هذه المبادئ والإرشادات في ثلاثة أدوار رئيسية لتجارب التحكم العشوائي في تقييم الذكاء الاصطناعي: أداة تصميم لتخطيط الدراسات، ورقة تقييم لتقييم الأعمال الحالية، ومخطط لوضع المعايير مع تطور المجال.

توسع هذه الإطار قديمًا من خلال تركيز التقييم على الأداء البشري بدلًا من نتائج النموذج فقط، وإضفاء الطابع الرسمي على الاستنتاج السببي من خلال منهجية RCT في سياقات الذكاء الاصطناعي، ودمج تحليل التنوع وتقييم الأهمية العملية، وتطبيق إطار شفاف وقابل للتكرار، ومعالجة تحديات خاصة بالذكاء الاصطناعي بما في ذلك إصدار النموذج، وديناميات التفاعل بين البشر والذكاء الاصطناعي، وأثر التلوث والتسرب، وتقييم التأثير العادل.