تواجه أنظمة الذكاء الاصطناعي المتطورة تحديات متزايدة في البيئات متعددة الوكلاء. يقدم GT-HarmBench، المعيار الجديد الذي يسلط الضوء على المخاطر عالية المستوى، رؤية فريدة لتلك المخاطر من منظور نظرية الألعاب.

يتضمن المعيار أكثر من 1,500 سيناريو معقد، مستلهم من هياكل نظرية الألعاب مثل معضلة السجين وصيد الغزلان، والتي تم تطويرها لتكون مستندة إلى سياقات حقيقية من خزانة مخاطر الذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا (MIT AI Risk Repository).

إحدى النتائج اللاحقة مثيرة للقلق؛ حيث fail الوكلاء في اتخاذ قرارات اجتماعية مفيدة في 38% من الحالات عالية المخاطر، مثل التصعيد العسكري، والتلاعب في الانتخابات، وسوء الممارسات الطبية. يُظهر البحث أن التأثير الناتج عن صياغة الأسئلة في سياق نظرية الألعاب يمكنه تحسين النتائج الاجتماعية المفيدة بنسبة تصل إلى 18%.

يوفر هذا المعيار والمعايير المصاحبة له مجموعة أدوات موحدة لدراسة المحاذاة في بيئات متعددة الوكلاء، مما يبرز الفجوات الكبيرة في الموثوقية التي يجب معالجتها.