تُعد نماذج اللغة الكبيرة (LLMs) من الأدوات المبتكرة التي تُستخدم بشكل متزايد في التطبيقات السريرية، لكن وقوعها تحت تأثير التغييرات اللغوية الطفيفة يثير العديد من التساؤلات. إن الاختلافات في العبارات أو التركيب اللغوي قد تؤدي إلى نتائج تشخيصية متباينة، وهذا الأمر ينذر بالخطر في بيئات الرعاية الصحية الحرجة التي تعتمد على دقة التنبؤات.

إحدى التحديات البارزة تتمثل في ضمان أن تبقي التغييرات المقترحة على المعنى السريري كما هو. وقد أظهرت قياسات التشابه المستندة إلى التضمين (embedding) ضعفاً في التعرف على الفروق التي تتعلق بالنفي أو الزمن أو الشدة.

لمعالجة هذه القضية، تم اقتراح إطار تحقق دلالي يعتمد على استدلال اللغة الطبيعية (NLI) لفرز التغييرات المقبولة التي تحافظ على المعنى. يتم تحسين ذلك من خلال الاعتماد على نموذج (LLM) كقاضي، ويتم تدقيقه بواسطة خبير سريري.

أيضًا، تم تقديم ثلاثة مقاييس لقياس حساسية النموذج: حساسية التغيير الذي يحافظ على المعنى (MVS)، وتغير الثقةC)، وعدم الاستقرار في أسوأ الحالات (WCI).

في تقييمنا، تم استخدام 16 نموذجاً مفتوح المصدر، وتضمنت النتائج أن اختلافات القوة والمرونة بين النماذج المتخصصة في المجال (DS) كانت متباينة ومرتبطة بالنموذج بشكل كبير، حيث لا تؤدي التخصصات الدومينية إلى تحسين أو تقليص الثبات بشكل مستمر ضد إعادة صياغة prompts التي تحافظ على المعنى. ووجدنا أن العديد من النماذج المتخصصة كانت من بين الأكثر قوة مقارنةً بالنماذج العامة، بينما استمرت الأساسيات القوية للنماذج العامة في التنافس.

إذاً، هل تعتقد أن تغيير الكلمات يمكن أن يؤثر على نتائج التشخيص في الرعاية الصحية؟ شاركونا آراءكم في التعليقات!