في عالم الاستثمار المتسارع الذي تعتمد فيه الشركات بشكل متزايد على الذكاء الاصطناعي (Artificial Intelligence)، أصبح من الضروري فهم فعالية الخوارزميات المستخدمة في اتخاذ القرار. تناولت دراسة جديدة نشرها باحثون في arXiv مسألة حساسة تتعلق بكيفية تحليل خوارزميات اتخاذ القرار بدءًا من المدخلات والمخرجات المحسوسة فقط.

تقدم هذه الدراسة نتيجة رئيسية تتعلق بـ "الإحباط التراكمي" (cumulative regret) في السياسات الديناميكية، حيث تساوي هذه النتيجة مجموع التباينات (covariances) بين متجه التكلفة وقرارات السياسة على مدار الزمن. تمثل هذه النتيجة تطوراً مهماً في فهم كيفية امتداد الخصائص المعروفة في بيئات زمنية محددة لتشمل الإعدادات الديناميكية متعددة الفترات.

كما توضح الدراسة أن الأثر يعتمد على تكاليف مستقلة موزعة بشكل مماثل (i.i.d) وسياسات ماركوف غير متحيزة في المتوسط. مع طرح تصحيحات مغلقة الشكل لحالات غير مستقرة ومتغيرة زمنياً، وابتكار نموذج "بلمان" (Bellman recursion) الذي يربط النتائج بخوارزميات التعلم المعزز المعروفة، فإن الأمور تصبح أكثر وضوحاً.

تفتح هذه الاكتشافات آفاقاً جديدة لتقييم الخوارزميات في البيئات الاستراتيجية، حيث يمكن استخدامها في تصميم الآليات على المنصات والتقييم داخل الألعاب المتكررة. كما تقدم الدراسة تصحيحاً للتأثير العاطفي أثناء المسابقات العلنية، مما يوفر أدوات تقييم فعالة لمدة زمنية مستمرة.

في ختام الدراسة، أظهرت النتائج أن هذا النهج الجديد يشكل وسيلة عملية، غير متعلقة بالنماذج، لتقييم آليات المنصات واستراتيجيات الاستثمار، مما يجعلها أداة مثالية للنقد الخارجي.