تسعى نماذج اللغة الكبيرة (Large Language Models) إلى إحداث ثورة في مجال استخراج المعلومات من الملاحظات السريرية المكتوبة بحرية. لكن الجوانب المتعلقة بحساسية نتائجها تجاه الخيارات المستخدمة في إعدادات الاستخراج لا تزال غير مفهومة بشكل كامل. في دراسة حديثة، تم قياس هذه الحساسية من خلال تثبيت مهمة الاستخراج وتغيير خيار واحد في كل مرة، مما يساهم في فهم أعمق لتأثير تلك الخيارات.
تتضمن الدراسة استخدام مخطط ثابت يتضمن 17 علامة توثيق سريرية وقائمة مفردات تضم 47 علامة لأسباب الدخول الرئيسية. تم إجراء ثلاثة إصدارات من الموجهات (prompts) للتعبير عن هذا المخطط، وتم اختبارها عبر نموذجين بحجمين مختلفين باستخدام ملخصات الخروج من قاعدة بيانات MIMIC-IV.
أظهرت النتائج أن كلا النموذجين يحققان نفس مستوى الاتفاق المتقاطع في الموجهات، لكن النموذج الأكبر حقق نتائج مختلفة في بعض المجالات، مما يشير إلى إعادة توزيع النتائج وليس مجرد غياب التأثير. وعند تقليص المخطط إلى ثنائي، تم تناول معظم التباينات الظاهرة، مما يوحي بأن الخلاف يتركز حول مفهوم الغياب مقابل الصمت بدلاً من وجود النتائج نفسها.
وعند النظر في تصنيف الدخول متعدد الفئات، أدى تغيير النموذج إلى إعادة تعيين العلامة السائدة في ما يقرب من نصف الملاحظات، بينما أعادت إعادة صياغة الموجه فقط توجيه العلامة في حوالي واحدة من كل ثماني ملاحظات. علاوة على ذلك، حدد النموذج الأكبر الفئات العامة بشكل أقل بكثير (44% إلى 26%).
تشير هذه الأنماط إلى وجود مصدر خلاف مفروض من المخطط يتركز على محوري الغياب والصمت، بالإضافة إلى هيمنة النموذج على صياغة الموجهات عند تصنيف الدخول متعدد الفئات. تم تحديد منهجية قابلة لإعادة الاستخدام لتدقيق إمكانية استنساخ الاستخراج على مستوى السكان، مما يفتح آفاقًا جديدة لفهم هذه التقنيات بشكل أعمق.
فهم حساسية نماذج اللغة الكبيرة في استخراج البيانات السريرية: تأثير الخيارات على دقة النتائج
تشير دراسة جديدة إلى أن نماذج اللغة الكبيرة تعاني من حساسية عند استخراج البيانات السريرية بناءً على اختيارات محددة، مما يعكس تأثيرات عميقة على دقة نتائجها. تتناول الدراسة كيفية قياس هذه الحساسية دون الاعتماد على تقييم بشري.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
