سلطت دراسة حديثة الضوء على كيفية استخدام أدوات القياس النفسية المصممة للبشر لتحديد الشخصيات النفسية لنماذج اللغة الضخمة (LLMs)، وتأثيرها على استخدامها وتقييم سلامتها. وفقًا لإطار عمل نفسي رسمي، توصل الباحثون إلى أن هذه الشخصيات غالبًا ما تكون ناتج تحيّز في أدوات القياس.

أجرت الدراسة مجموعة من الاختبارات المتعلقة بالشخصية وتفضيلات المخاطر على 56 نموذجًا من نماذج اللغة، بالإضافة إلى عيّنات بشرية كبيرة. إليك ما توصل إليه الباحثون:

1. **تحيز الاستجابة:** إن الفروقات بين النماذج لا تعود إلى الصفات التي تستهدفها الأدوات، بل إلى تحيز اتجاهي، حيث تميل النماذج للإجابة بطريقة معينة بغض النظر عن محتوى السؤال. وقد أظهرت التحليلات أن 81-90% من الاختلافات بين النماذج تأتي من هذا التحيز.

2. **تراجع التحيز مع زيادة القدرات:** بالرغم من انخفاض التحيز مع تطور قدرات النموذج، إلا أنه لا يمكن القضاء عليه تمامًا.

3. **موثوقية الأداة:** يتم تحديد موثوقية الأداة بحساب ما نسميه “استجابة التحيز” أو الـ response orthogonality، بمعنى أن نسبة العناصر التي تشير إلى الصفات والتحيز في اتجاهات متعارضة تُعتبر عاملاً محوريًا في تحديد موثوقية الأداة.

4. **تغير الشخصية الظاهرة:** الشخصية التي يُظهرها النموذج تتغير حسب العناصر المستخدمة ويمكن تصنيعها من خلال اختيار العناصر بعناية.

بناءً على هذه النتائج، نجد أن الشخصيات النفسية الظاهرة لنماذج اللغة الضخمة هي في الواقع نتاج الآليات المستخدمة لقياسها، وليس صفات حقيقية للنماذج نفسها. لذا، يُدعى إلى ضرورة وجود تقييمات مخصصة تركز على استجابة التحيز للحصول على نتائج دقيقة وموثوقة.