في عصر تتزايد فيه الاعتماد على نماذج اللغة الضخمة (Large Language Models) لتقييم الصحة النفسية، تتصاعد التساؤلات حول قدرتها على تفسير الروايات النوعية للمرضى. دراسة حديثة تقدم مقارنة مباشرة بين هذه النماذج والأطباء النفسيين، مع التركيز على تشخيص اضطراب الشخصية الحدي (Borderline Personality Disorder) واضطراب الشخصية النرجسية (Narcissistic Personality Disorder) من خلال حسابات سيرة ذاتية باللغة البولندية.

أظهرت النتائج أن النماذج الأكثر أداءً، مثل نموذج جمنّي برو (Gemini Pro)، قد حصلت على متوسط درجات تشخيصية بلغت 65.48%، متفوقةً بفارق 21.91 نقطة مئوية عن الأطباء النفسيين الذين سجلوا معدل درجات بلغ 43.57%. وقد تجلت الفجوة بشكل أكبر عندما جاء الأمر لتشخيص اضطراب الشخصية النرجسية، حيث أخفقت النماذج في تحقيق دقة مطابقة لتلك التي حققها الأطباء، (6.7% مقابل 50%). هذا يعكس حذراً محتملاً تجاه مصطلح "النرجسية" القيموي.

وعلى الرغم من أن النماذج والخبراء البشريين تميزا في تحديد اضطراب الشخصية الحدي (F1 = 83.4 وF1 = 80.0 على التوالي)، إلا أن نماذج الذكاء الاصطناعي قدمت تبريرات واثقة ومعقدة مع التركيز على الأنماط والفئات الرسمية، فيما ظل الأطباء النفسيون أكثر اختصارًا وحذرًا، مشددين على شعور الذات لدى المرضى وتجاربهم الزمنية.

تمثل هذه الدراسة خطوة هامة في فهم كيفية تعامل الذكاء الاصطناعي مع البيانات السريرية المعقدة، مشيرةً إلى أن الاعتماد على النماذج قد يؤدي إلى مشكلات خطيرة في الدقة والتحيز. هل يمكن أن نتوقع في المستقبل أن تلعب هذه النماذج دورًا مكملًا للأطباء النفسيين، أم أن هناك مخاطر يجب الحذر منها؟