تواجه الأبحاث الطبية تحديات معقدة في تحويل العلاجات الجديدة إلى ممارسات سريرية ناجحة. تلعب الحوافز النشرية دورًا حاسمًا في دفع الباحثين نحو تقديم نتائج "إيجابية" حتى عند وجود نتائج تجريبية غير واضحة. ولقد أظهرت الأبحاث السابقة أن الكتاب غالبًا ما يقومون بتحريف نتائج الدراسات، خاصةً في الملخصات.

هذا التحريف له تأثير كبير على كيفية تفسير الأطباء للأدلة وقد يؤثر على قرارات الرعاية الصحية المقدمة للمرضى. وبالفعل، استُخدمت نماذج اللغات الضخمة (LLMs) بشكل متزايد لاستعراض وتجميع الأدلة الطبية المنشورة. لذا، قام الباحثون بدراسة ما إذا كانت هذه النماذج تتأثر أيضًا بهذه التحريفات، وأسفرت النتائج عن وجود حالة مثيرة للقلق.

دراسة شملت 22 نموذجًا من نماذج اللغات الضخمة أظهرت أنها أكثر عرضة للتحريفات من البشر. والأكثر إثارة، أن هذه النماذج قد تعيد صياغة التحريفات في مخرجاتها، حيث وُجد أنها تضيف تحريفات ضمن الملخصات المبسطة التي تنتجها. ومع ذلك، تبيّن أن نماذج اللغات الضخمة قادرة بشكل عام على اكتشاف التحريفات ويمكن توجيهها بطريقة تقلل من تأثيرها.

هذه النتائج تثير تساؤلات مهمة حول موثوقية المعلومات الطبية المعتمدة على الذكاء الاصطناعي وكيف يمكن تحسين الأداء عبر ضبط النماذج بعناية. يجب على الباحثين والأطباء أن يكونوا واعين لندرة الأشياء وأن يسعوا لتطوير أدوات تساعد في تحسين الفهم الدقيق للأدلة الطبية.