في عالم الطب الحديث، يعتمد الأطباء على نماذج الذكاء الاصطناعي لتحسين رعاية المرضى وضمان سلامتهم. وقد ظهر في هذا السياق معيار MedFact، الذي يعكس مدى القدرة الحقيقية لنماذج اللغات الضخمة (Large Language Models) على فحص الحقائق الطبية باللغة الصينية.

يتضمن MedFact 2,116 حالة موثقة من نصوص حقيقية عبر 13 تخصصًا طبيًا مختلفًا، ويحتوي على 8 أنواع من الأخطاء، و4 أنماط كتابة، و5 مستويات من الصعوبة. تم إنشاؤه باستخدام إطار عمل هجين يجمع بين الذكاء الاصطناعي وتغذية راجعة من خبراء، مما يضمن جودة عالية ودقة في التحدي.

في تقييم شامل، تم اختبار 20 من النماذج الرائدة في هذا المجال على تصنيف صحة المعلومات وتحديد مواقع الأخطاء. والنتائج تكشف أن النماذج غالبًا ما تستطيع الكشف عن وجود الأخطاء في النصوص، لكنها تفشل في تحديد مواقعها بدقة. بل إن الأبحاث أظهرت ظاهرة مثيرة للاهتمام تُعرف بـ"المبالغة في الانتقاد"، حيث تميل النماذج إلى تصنيف المعلومات الصحيحة على أنها خاطئة، وهو ما يمكن أن يتفاقم باستخدام تقنيات التفكير المتقدم مثل التعاون بين الوكلاء المتعددين وتوسيع الاستدلال أثناء التنفيذ.

تسعى MedFact لتسليط الضوء على التحديات التي تواجه نماذج الذكاء الاصطناعي في المجال الطبي، وتقديم موارد تساعد في تطوير أنظمة طبية موثوقة. ويعتبر هذا التطور خطوة هامة نحو تحسين الدقة والكفاءة في استخدام الذكاء الاصطناعي في الرعاية الصحية.