في عالم الذكاء الاصطناعي، تتنافس نماذج اللغة الضخمة (LLMs) لتحقيق مستويات عالية من الدقة التشخيصية. أظهرت دراسة جديدة أن هذه النماذج تصل إلى دقة تتراوح بين 60-70% عند تقييم حالات سريرية معقدة. ولكن، هل تكفي هذه النسبة لتفريق بين التفكير السريري المستند إلى الوقائع والتقليد البسيط للأنماط؟
tقدم الدراسة مفهوم "رسوم البيانية لتشخيص السرطان"، والتي تمثل هيكلاً منظماً يتم استخراجه من المسارات التشخيصية للنماذج، باستخدام أنطولوجيا متخصصة تضم خمسة أنواع من العقد وسبعة أنواع من الحواف. تم تطبيق هذه العملية على 750 مسارًا من خمس نماذج على مدى 50 حالة من مجلة نيو إنجلاند الطبية (New England Journal of Medicine) وثلاثة ظروف تحفيزية. الهدف كان اختبار ما إذا كانت المسارات التشخيصية تظهر أنماط تفكير منظمة ثابتة أو ما يعرف بـ "الخطط التشخيصية".
tظهر النتائج أن التشابه بين الرسوم البيانية للأعمال السريرية المشابهة كان يعكس كفاءة تشخيصية، حيث لم يكن هناك فرق واضح في الدقة بين الحالات المشابهة وغير المشابهة. حتى بعد عدة اختبارات، انخفضت أي إشارة متبقية إلى مستوى منخفض جداً. وهذا يشير إلى وجود بُعد هيكلي لا تعكسه دقة التشخيص.
tساعد عملية التحفيز المنظم على تعزيز تحليل الميزات التمييزية داخل المسارات، ولكنها لا تزيد من التناسق بين الحالات. هذه النتائج تكشف عن كفاءة تشخيصية دون اتساق في التفكير القائم على الأنماط، مما يعني أنه ينبغي complementing دقة الإجابات النهائية بتقييم مستويات العملية.
نحن نطلق الأنطولوجيا، وبروتوكول التحقق، والرسوم البيانية المستخرجة كموارد للتقييم المنظم لتفكير نماذج الذكاء الاصطناعي في المجال السريري. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
رسوم البيانية لتشخيص السرطان: هل تعتمد نماذج الذكاء الاصطناعي على التفكير السليم أم مجرد تقليد للأنماط؟
تتسابق نماذج اللغة الضخمة لتحقيق دقة تشخيصية تتراوح بين 60-70%، ولكن هل يكفي ذلك لتقييم قدرتها على التفكير السريري؟ تقدم الدراسة الجديدة رسوم بيانية لتشخيص السرطان كأداة لفهم هذا الأمر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
