في عالم الذكاء الاصطناعي، أصبحت نماذج اللغات الضخمة (Large Language Models) تُستخدم بشكل متزايد كقضاة في تقييم سلامة الأنظمة الذكية. لكن السؤال الأهم هو: هل الأحكام التي تصدرها هذه القضاة تعتمد على سلوك النظام (agent) أو فقط على صياغة تقييم السياسة؟

في دراسة جديدة تعرض على منصة arXiv، تم تسليط الضوء على مفهوم هام يُعرف بسياسة invariance، والذي يجب أن يتحقق لضمان موثوقية قضاة السلامة. يتمثل هذا المفهوم في مجموعة من المبادئ الثلاثة القابلة للاختبار: الأول هو ثبات دلالات القيم (rubric-semantics invariance) تحت إعادة صياغة معتمدة بالتساوي؛ الثاني هو ثبات الحدود (rubric-threshold invariance) تحت التحولات المتعمدة من الصارم إلى المرن؛ والثالث هو المعايرة الواعية للغموض (ambiguity-aware calibration) التي تركز على حالات الغموض الحقيقي في الأحكام.

عند تطبيق هذه المبادئ كبروتوكول لاختبار الضغط مع أربعة قضاة فئة النظام، تم اكتشاف نمط فشل غير مسبوق. حيث أظهرت النتائج أن القضاة الحاليين يردون بقوة متشابهة على التحولات المعنوية والمعادلات الهيكلية غير المجدية، مما يتسبب في عدم قدرة النظام على التفريق بينهما. وقد أدت التغييرات السياسية التي تحافظ على المحتوى إلى تغيير يصل إلى 9.1% من الأحكام، بينما حدثت 18-43% من جميع التغييرات في حالات غير غامضة.

نصل إلى النقطة الهامة هنا: الدرجات الحالية لتقييم السلامة تخلط بين ما قام به النظام وكيف تم توجيه المُقيِّم. لذلك، يقدم البحث معيار سياسة invariance Score وبروتوكول تقرير Judge Card، حيث يكشفان عن تفاوت كبير في موثوقية القضاة، والذي قد يكون غير مرئي عند استخدام لوائح الدقة فقط.

تم إصدار البروتوكول والكود ليتمكن الباحثون والمطورون من مراجعة قضاة السلامة الخاصة بهم، بدلاً من الوثوق بهم بشكل افتراضي. الأمر الذي يعكس توفير إطار أعمق لتقييم موثوقية أنظمة الذكاء الاصطناعي.