يعتبر علم الأوبئة من المجالات الحيوية التي تحتاج إلى استنتاجات دقيقة حول عبء الأمراض وديناميكيات نقل العدوى وتأثير التدخلات على مستوى السكان. لكن، يبدو أن هناك فقراً في المعايير القياسية التي تقيّم بالأدلة كيف يمكن لنماذج الذكاء الاصطناعي، مثل نماذج اللغة الكبيرة (Large Language Models)، أن تعالج أسئلة معقدة في هذا المجال.

تقدم الدراسة الجديدة المعروفة باسم EpiQAL، معيارًا تشخيصيًا مبتكرًا يُركّز على تقييم قدرة هذه النماذج في معالجة أسئلة علم الأوبئة من مجموعة من الأمراض المتنوعة، حيث تم تصميم ثلاثة مجموعات اختبار تستهدف جوانب مختلفة من الاستنتاج.

تتضمن هذه المجموعات اختبارات على قدرة النماذج على استرجاع المعلومات، واستنتاج متعدد الخطوات، وإعادة تخيل الاستنتاجات مع معلومات غير كاملة. العملية تم تطويرها وتقويتها من خلال استخدام خط أنابيب ذي جودة عالية يعتمد على توجيه التصنيف، والتحقق من النماذج المتعددة، وفحص الصعوبات.

عند اختبار خمسة عشر نموذجًا مختلفًا، بما في ذلك نماذج مفتوحة المصدر ونماذج مملوكة، أظهرت النتائج أن الأداء الحالي لهذه النماذج لا يُلبي التوقعات في مجال الاستنتاج العلمي. وكان الاستنتاج متعدد الخطوات الأكثر تحديًا.

ما يُثير الدهشة هو أن ترتيب النماذج يختلف حسب المجموعة المختبرة، وأن الحجم وحده لا يمثل ضماناً للنجاح. كما أظهرت نتائج التحفيز بأسلوب سلسلة الأفكار (Chain-of-Thought) فائدة في الاستنتاج متعدد الخطوات، ولكنها كانت غير متسقة في أماكن أخرى.

تقدم EpiQAL إشارات تحليلية دقيقة حول كيفية استخدام الأدلة، والاستنتاج العلمي، وإعادة بناء الاستنتاجات، مما يجعلها أداة قيمة للبحث في تطوير النماذج المستقبلية في هذا المجال.