مع انتشار نماذج اللغات الضخمة (Large Language Models - LLMs) في الأنظمة البرمجية العالمية، أصبح من الضروري تعزيز سلامة هذه النماذج وضمان العدالة أثناء استخدامها. ومع ذلك، تعاني أساليب تقييم العدالة الحالية من قيود كبيرة؛ إذ تعتمد غالبًا على قياس التحيزات بشكل ملاحظ، مما قد يؤدي إلى نتائج مضللة نتيجة لأنماط موضوعية قد تكون مرتبطة بجماعات معينة من السكان في مجموعات بيانات الاختبار.

في هذه الدراسة، نقدم إطار عمل يسمى النموذج البياني الاحتمالي (Probabilistic Graphical Model - PGM) لتدقيق آليات أمان نماذج اللغات الضخمة بشكل سببي. من خلال تطبيق مشغل "دو" لبرل (Pearl's do-operator)، استطعنا عزل التأثير السببي لحقن ديموغرافيا ثقافية في المحفزات.

قمنا بإجراء تحليل تجريبي واسع النطاق عبر سبعة نماذج مستندة إلى التعليمات من أصول متنوعة تشمل الولايات المتحدة (Llama-3.1-8B، Gemma-2-9B)، أوروبا (Mistral-7B-v0.3)، الإمارات العربية المتحدة (Falcon3-7B)، الصين (Qwen2.5-7B، DeepSeek-7B)، والهند (Airavata-7B). باستخدام مجموعتين بيانات متميزتين (ToxiGen وBOLD)، أظهرت النتائج وجود تباينات بين التحيزات الملاحظة وتلك التدخلية، مما يُظهر أن مقاييس العدالة التقليدية قد تبالغ في تقدير التحيز الديموغرافي، لأنها لا تأخذ في الاعتبار السمات السلبية للسياقات.

علاوة على ذلك، تشير الاحتمالات السببية إلى وجود توجهات مميزة في المواءمة: حيث تُظهر النماذج الغربية معدلات رفض سببية أعلى تجاه مجموعات ديموغرافية محددة، بينما تُظهر النماذج الشرقية معدلات تدخل منخفضة بشكل عام مع حساسية موجهة تجاه الديموغرافيا الإقليمية. نتناول في هذا المقال تبعات هذه التحيزات، مشددين على كيفية إعاقة تحفيز النقاشات الإيجابية بسبب التحفيز الزائد المعتمد على الديموغرافيا في التطبيقات المستقبلية.