تواجه أنظمة الذكاء الاصطناعي المتطورة تحديات متزايدة في البيئات متعددة الوكلاء. يقدم GT-HarmBench، المعيار الجديد الذي يسلط الضوء على المخاطر عالية المستوى، رؤية فريدة لتلك المخاطر من منظور نظرية الألعاب.
يتضمن المعيار أكثر من 1,500 سيناريو معقد، مستلهم من هياكل نظرية الألعاب مثل معضلة السجين وصيد الغزلان، والتي تم تطويرها لتكون مستندة إلى سياقات حقيقية من خزانة مخاطر الذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا (MIT AI Risk Repository).
إحدى النتائج اللاحقة مثيرة للقلق؛ حيث fail الوكلاء في اتخاذ قرارات اجتماعية مفيدة في 38% من الحالات عالية المخاطر، مثل التصعيد العسكري، والتلاعب في الانتخابات، وسوء الممارسات الطبية. يُظهر البحث أن التأثير الناتج عن صياغة الأسئلة في سياق نظرية الألعاب يمكنه تحسين النتائج الاجتماعية المفيدة بنسبة تصل إلى 18%.
يوفر هذا المعيار والمعايير المصاحبة له مجموعة أدوات موحدة لدراسة المحاذاة في بيئات متعددة الوكلاء، مما يبرز الفجوات الكبيرة في الموثوقية التي يجب معالجتها.
اكتشاف المخاطر: GT-HarmBench يقيّم سلامة الذكاء الاصطناعي من خلال نظرية الألعاب
تمثل GT-HarmBench خطوة رائدة في تقييم سلامة أنظمة الذكاء الاصطناعي في بيئات متعددة الوكلاء، مع تسليط الضوء على المخاطر العالية مثل الفشل في التنسيق والصراع. يتيح هذا المعيار قياس القدرة على اتخاذ القرارات المفيدة اجتماعياً في سياقات معقّدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
