في ظل التحديات المتزايدة التي تطرحها الأوبئة، تحتاج المجتمعات العلمية إلى أدوات فعّالة لتحليل المعلومات بشكل منهجي ودقيق. في هذا السياق، تم تطوير أداة جديدة تُعرف باسم AgentSLR، وهي عبارة عن مجموعة تقييم واسعة النطاق تهدف إلى قياس قدرات نماذج اللغة الضخمة (Large Language Models) في إجراء المراجعات الأدبية المنهجية (Systematic Literature Reviews) المتعلقة بالأوبئة.

تتضمن هذه الأداة عملية آلية مخصصة لتحليل 16,248 مقالًا، مما يمنحها قاعدة بيانات غنية وموارد تقييم مدعومة من خبراء في المجال. تم اشتقاق التقييمات المرجعية من دراسات مراجعة محكمة تمركزت حول مسببات الأمراض ذات الأولوية للمنظمة العالمية للصحة (WHO).

من خلال تقييم خمس نماذج متقدمة، أظهرت النتائج عدم وجود نموذج واحد يتفوق في جميع المهام، مما يعكس تخصص هذه النماذج في المهام الفرعية التي قد تتلاشى بين معايير التقييم العامة. وأظهرت البيانات أن استخراج البيانات المنظم هو أحد العقبات الكبرى، حيث لم يتجاوز أي نموذج معدل F1 المستوى الحقل المتوسط 0.67. علاوة على ذلك، فقد أظهرت التكاليف تقديرات متباينة تصل إلى 96 مرة بين النماذج المختلفة.

وفقًا للنتائج، تشير أنماط الفشل الموثقة إلى أن النماذج المفحوصة ليست موثوقة بما يكفي للاستخدام غير المُراقب في مجال الوبائيات، حيث يمكن أن تؤثر النتائج على السياسات العامة. لذا يبقى السؤال: هل يمكن لهذه النماذج أن تلبي احتياجات العلوم الوبائية في المستقبل؟