تتوالى التوقعات الجريئة بشأن قدرة الذكاء الاصطناعي (Artificial Intelligence) على تسريع الاكتشافات العلمية بشكل أسرع من الأدلة المقدمة من العلماء العاملين في الميدان. ومع ذلك، يبقى المجال بحاجة إلى اختبارات واسعة النطاق تتضمن العلماء في تقييم فعالية هذه الادعاءات.

في دراسة حديثة، قمنا بأكبر تقييم من نوعه حتى الآن، حيث طلبنا من مؤلفي 121,640 بحثًا علميًا حديثًا عبر مجالات الأحياء، الطب، الكيمياء، والعلوم الاجتماعية، أن يحكموا على الأفكار التي ولّدتها نماذج اللغات الضخمة (Large Language Models) استنادًا إلى سياق وألغاز بحوثهم. وقد استجاب 6,749 عالمًا، موفرين 25,139 مجموعة من التقييمات تتعلق بالابتكار، والجدوى التجريبية، واحتمالية الصحة، ونسبة القبول.

توصلنا إلى ثلاثة أنماط رئيسية. الأول: النماذج غير القادرة على التفكير تميل إلى الانحدار إلى مجموعة ضيقة من الأفكار المتشابهة، في حين أن النماذج القادرة على التفكير تستكشف مساحة واسعة من الفرضيات، ومع ذلك، لا تقترح أي نموذج فكرة فرضيات صفرية كما يفعل البشر بشكل حر.

الثاني: يفضل العلماء الأفكار التي تشبه أفكارهم، ويعطون قيمة أكبر لاحتمالية الصحة على الابتكار، رغم أن العلماء في العلوم الاجتماعية يتحملون المخاطر بشكل أكثر مرونة من نظرائهم في علوم الحياة. كما أن العلماء الاجتماعيين القدماء هم الأشد انتقادًا، وقد حصلوا على هذا الانتقاد بسبب محدودية قدرة النماذج اللغوية على التعامل مع مجالات متعددة تتطلب تفسيرًا دقيقًا نظيرًا لتقييمات نظرائهم.

أخيرًا، أظهرت أدوات التقييم الآلي التي يعتمد عليها المجتمع حاليًا من ضعف توافق مع الحكم الخبير. ولتلبية هذه الثغرات، قمنا بتدريب نموذج Qwen3-14B على تقييمات بشرية ليعكس تنوع آراء المجال، متفوقًا على النماذج الحالية بأكثر من 27% مغلقًا الفجوة بينها وبين تقييمات المراجعين المستقلين.

على الرغم من الضجة الحالية، لا يزال الذكاء الاصطناعي في مجال العلوم يمثل شريكًا يحتاج إلى دعم وتوجيه من البشر لتوسيع خياله ومخرجاته وأحكامه. لهذه الأسباب، نبقى متسائلين: كيف يمكن للذكاء الاصطناعي أن يتحسن في دوره كعامل مساعدة في الاكتشافات العلمية؟