في دراسة جديدة مثيرة، تمكَّن الباحثون من تحديد الطرق التي تُظهر بها نماذج الذكاء الاصطناعي، تحديدًا نماذج اللغات الضخمة (Large Language Models)، فشلها في الإجابة على الأسئلة المتعلقة بالسجلات الصحية الإلكترونية (EHR). تكشف النتائج أن الأسئلة التي تتطلب خطوات استنتاجية متعددة تعاني من انخفاض ملحوظ في الدقة.
تستند هذه الدراسة إلى نتائج نظرية حول حدود التركيب في نماذج المtransformer، حيث قدم الباحثون تصنيفاً محدداً يُركز على عدد خطوات التفكير المطلوبة للإجابة عن سؤال سريري من السجل الصحي الإلكتروني. لقد قاموا بتحليل 313 زوجًا من الأسئلة والأجوبة أنتجها الأطباء، وقاموا بتقييم 301 سؤال في سياقات مختلفة.
أظهرت نتائج التجارب أن جميع النماذج المُختبرة، بما في ذلك Claude Sonnet وGPT-4 وGPT-5، قد سجَّلت انخفاضاً مستمراً في الدقة كلما زادت عدد خطوات التفكير المطلوبة، مما يعني أنه عندما يصبح التفكير أكثر تعقيداً، تزداد الأخطاء. على سبيل المثال، انخفض معدل الدقة لنموذج Claude Sonnet من 30.6% عند سؤال يتطلب خطوة واحدة إلى 17.6% عند سؤال يتطلب أربع خطوات.
تمت دراسة متطلبات السياق أيضاً، حيث أظهرت النتائج أن الأسئلة الأكثر تعقيدًا لم تكن أكثر تضرراً من الاختصار في السجلات الصحية. وهذا يشير إلى أن الانخفاض في الدقة هو نتيجة طبيعية لصعوبة التفكير المركب. يُظهر هذا البحث أهمية فهم الحدود التي تواجهها نماذج الذكاء الاصطناعي لتقليل المخاطر المرتبطة باستخدامها في المجال الطبي.
في الختام، كيف يمكن لمقدمي خدمات الرعاية الصحية التعامل مع هذه التحديات عند استخدام الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.
الفشل السريري في الذكاء الاصطناعي: كيف يُظهر عمق التفكير المستند إلى التراكيب حدود نماذج اللغات الضخمة
تشير الأبحاث الجديدة إلى وجود علاقة وثيقة بين عمق التفكير المستند إلى التراكيب في نماذج الذكاء الاصطناعي ومعدل الفشل في الإجابة على الأسئلة السريرية. هذه النتائج تسلط الضوء على التحديات التي تواجه نماذج اللغات الكبيرة عند التعامل مع البيانات الصحية الإلكترونية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
