في عالم الذكاء الاصطناعي المتسارع، تستحوذ نماذج اللغات الضخمة (Large Language Models) على اهتمام كبير كأدوات قوية في ميادين مختلفة مثل الأسواق والمزادات. لكن تبقى القدرة على توقع سلوك هذه النماذج في سياقات معينة تحديًا معقدًا. لذا، تم تقديم GENSTRAT، وهو نظام مبتكر يغني التجارب الاستراتيجية بجعلها أكثر ديناميكية وواقعية.

تستند GENSTRAT إلى فكرة استخدام بيئات استراتيجية تم إنشاؤها بشكل تلقائي، حيث تقوم بتوليد مجموعة متنوعة من ألعاب الورق ذات لاعبين. هذه الألعاب تعتمد على معلومات غير كاملة وتعتبر صعبة التنبؤ، لذا فإنها تعرض نماذج اللغات الضخمة لمواقف أكثر تشويقًا وتحديًا.

تمكنت GENSTRAT من توليد 2000 لعبة، من بينها تم اختيار 50 لعبة للتقييم في بطولة تفاعلية شهدت أكثر من 36,000 مباراة. لقد أظهرت النتائج أن النماذج الأحدث تتفوق في الأداء، ولكن الأهم هو كيف أن بعض النماذج، مثل gpt-5 وclaude، كانت أكثر تقلبًا محليًا مقارنةً بالنموذج gemini-3.1-pro، despite تشابه الأداء الكلي.

تتضمن GENSTRAT أيضًا مقياسًا لمدى تعقيد نموذج الأداء وتأثيراته، مما يوفر رؤى قيمة لنماذج التقييم التقليدية. مع هذا التقدم، تنفتح آفاق جديدة لفهم كيفية استخدام الذكاء الاصطناعي في البيئات الاستراتيجية وبدقة أعلى مما كان ممكنًا سابقًا.