في عالم التعلم المعزز متعدد الأهداف (MORL)، تعتبر العدالة (Fairness) أساسًا مهمًا في اتخاذ القرار، حيث يجب على السياسات ضمان الاستدامة والمساواة عبر أهداف متعددة قد تكون متعارضة. ومن المعروف أن الطرق الحالية التي تعتمد على سياسة واحدة قد تتمكن من تعلم سياسات عادلة لتفضيلات مستخدم ثابتة باستخدام دوال الرفاهية مثل دالة الرفاهية العامة لجيني (GGF)، إلا أنها تفشل في تقديم مجموعة متنوعة من السياسات اللازمة للتكيف مع تفضيلات المستخدم الديناميكية أو المجهولة.

لمعالجة هذه القيود، قمنا بصياغة مشكلة تحسين العدالة في سياق MORL متعدد السياسات، حيث يكون الهدف هو تعلم مجموعة من السياسات Pareto-optimal التي تضمن العدالة عبر جميع تفضيلات المستخدم المحتملة. تتمثل إسهاماتنا الفنية الرئيسية في ثلاثة جوانب:
1. أثبتنا أن السياسات العادلة تبقى ضمن مجموعة التغطية المحدبة (CCS) للدوال الرفاهية المنحنية والمتعددة الأجزاء (مثل GGF)، مما يُعتبر جبهة Pareto تقريبة للتوسيع الخطي.
2. وضحنا أن السياسات غير الثابتة، التي تُعزز بسجلات المكافآت المكتسبة، والسياسات العشوائية تُحسن من العدالة من خلال التكيف الديناميكي مع حالات التفاوت التاريخي.
3. اقترحنا ثلاث خوارزميات جديدة، تشمل دمج GGF مع التعليم المعزز متعدد السياسات متعدد الأهداف (MOQL)، ومُعزِّز الحالة لمتعلم MOQL متعدد السياسات، وتوسيعها لتعلم السياسات العشوائية.

تم تقييم خوارزمياتنا عبر مجالات متعددة، ومقارنتها مع أفضل طرق MORL الحالية. تُظهر النتائج التجريبية أن طرقنا تتعلم مجموعة من السياسات العادلة التي تلبي احتياجات تفضيلات المستخدم المختلفة. كيف ترى أهمية العدالة في أنظمة الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!