أهداف البحث
تتمثل الأهداف الرئيسية في تطوير منهجيات تقييم تدعم اتخاذ القرار الطبي، تتميز بالفاعلية الاقتصادية، وتستجيب للتغيرات المستمرة في الممارسات السريرية. منهجيات التقييم التقليدية القائمة على مراجعات الخبراء تعتبر بطيئة ومكلفة، مما يستدعي إعادة التفكير في كيفية إجراء التقييمات.
الطرق والأساليب
في هذه الدراسة، ساهم 20 طبيبًا في كتابة 1,646 مقياسًا لحالات إكلينيكية تشمل 823 حالة (736 حقيقية و87 مصطنعة) من مجالات الرعاية الأولية، علم النفس، علم الأورام، وصحة السلوك. تم التحقق من صحة هذه المقاييس باستخدام وكيل تقييم قائم على نموذج لغة.
النتائج
تُظهر النتائج أن المقاييس الألفية من الأطباء تميزت بفاعلية بين النواتج عالية ومنخفضة الجودة، بفارق معدل درجات لا يقل عن 82.9%. المقياس الذي استخدم لتحقيق النتائج تحسن من معدل 84% إلى 95%. لاحظت الدراسة أن اتفاق تصنيف الأطباء مع نتائج نماذج اللغات الضخمة تفوق أو تتساوى مع اتفاق الأطباء فيما بينهم.
النقاش
هذا التقارب في النتائج يؤكد على أهمية دمج المقاييس المُحسّنة بواسطة نماذج اللغات الضخمة مع تلك المُعدّة من قبل الأطباء. ولأن تكلفة المقاييس التي تعتمد على نماذج اللغات الضخمة أقل بنحو ألف مرة، فإنها تُتيح تغطية تقييم أكبر مع الحفاظ على أصالة الحكم الخبير.
خلاصة
تمثل المقاييس المحددة لحالات الذكاء الاصطناعي قطاعًا واعدًا في تقييم الأنظمة الصريحة للذكاء الاصطناعي، مع الحفاظ على الحاجة إلى الرأي الخبير في نفس الوقت.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
