تشهد نماذج اللغة الكبيرة (LLMs) في مجالات الطب تطورًا ملحوظًا بفضل زيادة حجم النموذج، طول السياق، وتعقيد الاسترجاع. ومع ذلك، يقود هذا التوسع إلى اعتقاد خاطئ مفاده أن تحسين الدقة يعكس بالضرورة سلوكًا أكثر أمانًا، وهو ما يتطلب إعادة تقييم في سياق الطب.
يتقدم الباحثون بفكرة جديدة تسمى SaFE-Scale، وهي إطار عمل يقيس كيف تتغير سلامة نموذج اللغة الكبيرة في السياقات الطبية عند زيادة الحجم أو جودة الأدلة أو استراتيجيات الاسترجاع. وقد تم إعداد معيار تم تقييمه تحت عنوان RadSaFE-200، يتضمن 200 سؤال اختيار متعدد، تم تصميمها من قبل المتخصصين لتعكس الأدلة النظيفة، الأدلة المتضاربة، وتصنيفات الخيارات الخاصة بالأخطاء العالية المخاطر.
في تجربة شاملة شملت 34 نموذجًا محليًا، تم تقييم النماذج تحت ستة ظروف مختلفة، حيث أظهرت النتائج أن استراتيجيات الاسترجاع الجيدة أدت إلى تحسين كبير في الدقة. على سبيل المثال، أدت الأدلة النظيفة إلى زيادة الدقة من 73.5% إلى 94.1%، مع تقليل الأخطاء العالية المخاطر من 12.0% إلى 2.6%.
لكن، لم تلتزم كل الاستراتيجيات بنمط السلامة المناسب؛ فعلى سبيل المثال، على الرغم من أن استراتيجيات RAG (استرجاع بمساعدة جيل) قد زادت من الدقة، إلا أن الأخطاء العالية المخاطر ظلت مرتفعة. أدى استخدام أقصى محيط من السياق إلى زيادة زمن الاستجابة دون إغلاق ثغرات السلامة.
تظهر التحليلات أن الأخطاء السريرية الأكثر تأثيرًا تتركز في مجموعة صغيرة من الأسئلة، مما يعني أن سلامة نماذج اللغة الكبيرة ليست نتيجة تلقائية للتوسع، بل خاصية تعتمد على جودة الأدلة وتصميم الاسترجاع.
تتطلب سلامة وسلوك نماذج الذكاء الاصطناعي في الطب نهجًا مدروسًا، يأخذ في الاعتبار جميع العوامل المحيطة به. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
مستقبل آمن ودقيق: كيف تؤثر قوانين التوسع على نماذج الذكاء الاصطناعي في الطب؟
دراسة جديدة تكشف عن كيفية تأثير المقاييس المختلفة على سلامة ودقة نماذج اللغة الكبيرة (LLMs) في المجال الطبي. يسلط الضوء على ضرورة مراعاة جودة الأدلة واستراتيجيات الاسترجاع لتحقيق نتائج آمنة وموثوقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
