في عالم الذكاء الاصطناعي، تلعب نماذج اللغات الضخمة (Large Language Models) دورًا حاسمًا في اتخاذ القرارات الأخلاقية. ومع ذلك، يكشف تحليل التأثير المعكوس عن جوانب جديدة وملفتة للنظر. الدراسات الأخيرة تشير إلى أن المعايير الأخلاقية لتقييم هذه النماذج غالبًا ما تُشَخَّص دون مراعاة السياقات المؤثرة، مما يجعل النتائج تبدو ثابتة.

اختبر الباحثون هذا الافتراض من خلال مقارنة سيناريوهات مختلفة، حيث يتم توجيه النماذج باتجاه الخيار A أو الخيار B. في المهام الأخلاقية المستندة إلى مشكلات جديدة، مثل "مشكلة الترام" و"BBQ" و"المعضلات اليومية"، قدمت النتائج دلالات مهمة. حيث تبيَّن أن معدلات الاختيار تتأرجح بشكل متوسط بين 12 إلى 18 نقطة مئوية بحسب التأثيرات المستخدمة، مما يكشف عن بنية معقدة لم تكن ملحوظة في التقييمات التقليدية.

الغالبية العظمى من الحالات شهدت عدم توافق بين ما تقوله النماذج حول تأثير المؤثرات وما تم الكشف عنه فعلاً. إذ أظهرت الدراسات أن 78% من التجارب حيث كان العكس محسوسًا أظهرت تناقضًا بين ما أقرته النماذج وما تم كشفه.

تجدر الإشارة إلى أن استخدام مؤثرات مثل تفضيلات المستخدم والاستجابة العاطفية قد يضعف سطوة السياقات في بعض التقييمات، بينما تزداد فائدة الأمثلة القليلة في دعم التعزيز الأخلاقي. يوصى بالاعتماد على أزواج التأثير المعكوس كملحق قياسي لتقييم التحيز الأخلاقي في النماذج، وتم نشر البيانات لتسهيل هذا النوع من التقييمات بشكل متكرر.