في عالم الطب النفسي، تكتسب نماذج اللغة الكبيرة (Large Language Models) شعبية متزايدة في مجالات مثل استعراض الحالة السريرية وتقدير المخاطر. ومع ذلك، تظل موثوقيتها في ظل الظروف الحرجة وغير الواضحة محل تساؤل. لقد أبدت الأبحاث السابقة قلقًا بشأن التحيزات الخوارزمية وحساسية النماذج تجاه الأسئلة المستخدمة، مما يشير إلى تأثير المعلومات السياقية على المخرجات.

في دراسة جديدة، تم اقتراح منهجية لتدقيق موثوقية هذه النماذج عند استخدامها في تقديرات مخاطر الاستشفاء، وهو أول اختبار تطبيقي لتقنية الذكاء الاصطناعي في اتخاذ القرارات السريرية. شملت الدراسة تقديم 50 نموذجاً محاكياً لملف مريض، يتكون كل منها من 15 سمة سريرية بارزة وما يصل إلى 50 سمة غير سريرية، مع إعادة صياغة الأسئلة بأربعة أشكال: المحايدة، المنطقية، تأثير البشر، والحكم السريري.

تمت مراجعة أربعة نماذج من نماذج اللغة الكبيرة (Gemini 2.5 Flash، LLaMa 3.3 70b، Claude Sonnet 4.6، و GPT-4o mini). أظهرت النتائج أن إدراج المتغيرات الطبية غير ذات المعنى أدى إلى زيادة معنوية في متوسط تقدير مخاطر الاستشفاء وزيادة تباين النتائج، مما يدل على تراجع الاستقرار التنبؤي مع ازدياد الضوضاء السياقية. وقد أظهرت السمات غير السريرية تأثيرًا على عدم الاستقرار عبر العديد من شروط النموذج والسؤال، وأثرت التغيرات في الأسئلة على مسار عدم الاستقرار بطريقة تعتمد على النموذج.

هذه النتائج تسلط الضوء على أهمية إجراء تقييمات منهجية موثوقة حول الاستقرار السلوكي والشك قبل تطبيق هذه التقنيات في السياقات السريرية. ما رأيكم في هذه التطورات المثيرة؟ شاركونا في التعليقات!