في العصر الرقمي، أصبحت نماذج اللغة الكبيرة (Large Language Models) أدوات شائعة بين الأطباء والمرضى للبحث عن النصائح الطبية. لكن تكشف دراسة جديدة عن جانب مظلم لا يُمكن تجاهله: درجات السلامة الإكلينيكية لهذه النماذج لا تزال غير مفهومة بشكل كافٍ. تأتي الأداة الجديدة NOHARM (تقييم المخاطر المتعددة للضرر في الطب) لتسليط الضوء على هذه المخاطر.
NOHARM عبارة عن معيار يتكون من 1,100 مهمة تشمل حالات استشارات من الرعاية الأولية إلى التخصصات الطبية، وتهدف إلى قياس تكرار وشدة الأضرار الناتجة عن التوصيات الطبية التي تقدمها نماذج اللغة الكبيرة. تغطي الأداة عشرة تخصصات طبية ووضعت أكثر من 12,747 ملاحظة خبير لـ 4,249 خيار في إدارة الحالات.
نتائج دراسة أجريت على 28 نموذجاً، أظهرت أن التوصيات الطبية كانت تحمل خطر الأذى الشديد في ما يصل إلى 22.6% من الحالات. الغريبة أن الأخطاء الناتجة عن الإغفال شكلت أكثر من 80% من الأخطاء الشديدة. في تجربة عشوائية شملت 101 طبيب عام، أظهرت أداءً أفضل مع المساعدة من الذكاء الاصطناعي، لكن الأطباء غالباً ما تجاهلوا النصائح الضرورية التي طرحتها أدوات الذكاء الاصطناعي.
تتبع أداء الأمان المعايير العامة للذكاء والمعرفة الطبية عبر جميع النماذج، لكنه انفصل عند الحدود القصوى. رغم الأداء الجيد في التقييمات الحالية، لا تزال نماذج الذكاء الاصطناعي المستخدمة على نطاق واسع تنتج نصائح طبية قد تتسبب في ضرر جسيم بمعدلات غير تافهة. لذلك، يتضح أهمية قياس السلامة الإكلينيكية بشكل صريح ويجب أن يكون محور اهتمام الأطباء عند استخدام هذه الأدوات في ممارساتهم.
احذروا! نماذج اللغة الكبيرة قد تؤذي صحتكم: اطلاق NOHARM لتقييم المخاطر!
تقدم دراسة جديدة أداة NOHARM لتقييم مخاطر النصائح الطبية التي يقدمها الذكاء الاصطناعي، مما يسلط الضوء على إمكانية حدوث أضرار جسيمة بنسبة تفوق 22% في بعض الحالات. يتوجب على الأطباء توخي الحذر عند استخدام هذه الأدوات في الممارسات الطبية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
