تعتبر سياسات السلامة أحد العناصر المحورية في تطوير أنظمة الذكاء الاصطناعي، حيث تعمل على تحديد ما يجعل المخرجات آمنة أو غير آمنة. وبينما تسهم هذه السياسات في ضمان جودة وموثوقية البيانات، يعاني المعلّقون من تباين في الآراء، مما يؤدي إلى نتيجة غير متناسقة في عملية التقييم.

يعتمد التباين في الآراء على عدة عوامل، تتضمن الأخطاء التشغيلية، التي قد تنجم عن سوء فهم المعلّقين للمهام الموكلة إليهم، وغموض السياسة، حيث تترك بعض الصياغات مجالاً للتفسير، إضافة إلى تباين القيم بين المعلّقين الذين يحملون وجهات نظر مختلفة حول ما يشكل السلامة.

إن فهم أسباب الاختلافات بين المعلّقين يعتبر أمراً بالغ الأهمية. فمثلاً، تتطلب الأخطاء التشغيلية تعديلات على مستوى الجودة، بينما تستدعي حالة الغموض توضيح السياسات، وتتطلب القيم المتعددة نقاشًا حول دمج تلك القيم في اتخاذ قرارات السلامة.

وفي سياق هذه التحديات، قدم الباحثون نموذج سياسة المعلّقين (APMs)، وهو نموذج يمكن تفسيره يتعلم سياسات السلامة الداخلية الخاصة بالمعلّقين من خلال سلوكهم في التقييم فقط، مما يجعل تبريرات المعلّقين مرئية وقابلة للمقارنة دون الحاجة إلى مجهود إضافي في التقييم.

تشير الدراسات إلى أن نماذج APMs تعكس بدقة سياسة سلامة المعلّقين بأكثر من 80% من الدقة، وتقوم بتوقع الاستجابات للتغيرات الافتراضية واستعادة الفروق المعروفة في السياسات في إعدادات محكومة. وعند تطبيق نماذج APMs على بيانات المعلّقين المتعلمين والبشريين، تظهر التطبيقات الرئيسة:

1. الكشف عن غموض السياسة من خلال إظهار كيف يفسر المعلّقون تعليمات السلامة بشكل مختلف.
2. كشف تباين القيم من خلال استكشاف الفروق المنهجية في الأولويات المتعلقة بالسلامة عبر المجموعات الديموغرافية.

مع هذه القدرات، يمكن لنماذج APMs دعم تصميم سياسات سلامة أكثر استهدافًا وشفافية وشمولية.