تتقدم نماذج اللغات الضخمة (Large Language Models) بسرعة في قطاع الرعاية الصحية، حيث تُستخدم في مهام مثل إجابة الأسئلة السريرية، دعم التشخيص، وتلخيص التقارير. ومع ذلك، تكشف دراسة جديدة عن جانب غير مألوف من هذه النماذج: حساسيتها المفرطة تجاه التغيرات الطفيفة في المحفزات، سواء كانت لغوية أو تركيبية.
في تحليل شامل تم القيام به باستخدام معيار MedMCQA، تمت دراسة كل من النماذج العامة مثل GPT-3.5 وللوما3، والنماذج المعنية بالطب مثل ClinicalBERT، BioLlama3، وBioBERT. وجدت الدراسة أن هذه النماذج لا تتمتع بالأمان الجوهري الذي كان يُعتقد أنها تمتلكه، حيث يمكن لتغييرات طفيفة في صياغة الأسئلة أن تؤدي إلى نصائح سريرية متناقضة أو حتى ضارة.
تم تصنيف التغيرات إلى نوعين: طبيعية واعتدائية، وتم فحص تأثيرها على استقرار ودقة النماذج في المهام السريرية. أظهرت النتائج أن النماذج، بالرغم من قدرتها على تحمل بعض التغييرات البسيطة، إلا أنها تفشل غالبًا عندما تتعرض لإعادة ترتيب تركيب الجملة أو تلميحات سياقية مضللة. وكما يتضح، يمكن أن تؤدي التلاعبات الاعتدائية إلى مخرجات خطيرة سريريًا، مثل التوصية بجرعات غير صحيحة أو إغفال معلومات حاسمة.
بشكل عام، تشير هذه النتائج إلى ضرورة توخي الحذر عند الاعتماد على نماذج اللغات الضخمة في مجالات تتطلب دقة عالية مثل الرعاية الصحية. فهل يمكن الاطمئنان إلى هذه النماذج في حالة تفشي الأخطاء؟
هل يمكن أن تتسبب نماذج اللغات الضخمة في مخاطر صحية؟ اكتشاف حساسيتها للمؤثرات الطفيفة
تظهر نماذج اللغات الضخمة (LLMs) في مجال الرعاية الصحية فعالية كبيرة، لكنها تعاني من حساسية عالية تجاه التغيرات الطفيفة في المحفزات، مما يهدد السلامة في التطبيقات السريرية. دراسة تكشف عن المخاطر المحتملة وتأثير المؤثرات على دقة النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
