في مجال الذكاء الاصطناعي، يعد تقييم السياسات خارج السياسة (Off-Policy Evaluation - OPE) أمرًا حيويًا لصناعة قرارات قائمة على البيانات. إن فهم كيفية تأثير سلوك الوكلاء الاستراتيجيين على النموذج التقليدي يمثل تحديًا. في بحث جديد، تم دراسة كيفية استجابة الوكلاء (الذين يُعتبرون كأطراف تُقيم سلوك صانع القرار) بشكل استراتيجي، مما يؤدي إلى تعديل متغيراتهم المرتبطة بالسياسة وتغيير اللعبة بشكل كبير.

بشكل تقليدي، يعتمد تقييم السياسات على فرضيات قوية، مثل تكرار التفاعلات والمعرفة التامة بسلوك الوكلاء. لكن هذه الدراسة تقترب من المشكلة من زاوية مغايرة، حيث تدرس حالة واحدة من OPE، حيث يمتلك صانع القرار فقط معلومات جزئية عن استجابات الوكلاء.

الابتكار الرئيسي في هذه الدراسة يكمن في الكشف عن المعلومات المحلية من خلال تفسيرات بعد التنفيذ، مما يؤدي إلى كشف المتغيرات المرتبطة بالوكلاء قبل تبنيهم السلوك الاستراتيجي. وباستخدام هذه المعلومات، يقوم الباحثون بتقدير نموذج إحصائي لاستجابات الوكلاء ويبتكرون مقدرًا قويًا للقيمة السياسية.

من خلال الافتراض بأن حساسية تكلفة الوكلاء تتبع توزيع لوغاريتمي شرطي (Conditional Log-Normal Distribution)، يثبت الباحثون اتساق المقدّر المقترح ويدعمون 접근هم تجريبيًا.

توضح النتائج أن تصميم التفاعلات يمكن أن يساهم في تقليل عدم تكافؤ المعلومات من خلال الكشف عن الهيكل المخفي في استجابات الوكلاء الاستراتيجية. يمثل هذا البحث خطوة هامة نحو تكامل تقييم السياسات مع سلوك الوكلاء في بيئات معقدة، ما يفتح آفاق جديدة في تطبيقات الذكاء الاصطناعي.