في مجال الذكاء الاصطناعي، يظل تقييم جدوى العلم أحد المواضيع الحيوية التي تتطلب عناية خاصة. لقد تمحورت دراسة جديدة حول السؤال: هل يجب أن نعتمد أكثر على التجارب أم النتائج في تقييم مدى جدوى الفرضيات العلمية؟ يتمثل الهدف في تحديد كيفية عمل نماذج اللغة الكبيرة (LLMs) عندما يتعلق الأمر بتقديم تقييمات دقيقة للأفكار المستندة إلى المعرفة العلمية الراسخة.

تأخذ هذه الدراسة في الاعتبار كيفية تصور نماذج اللغة الكبيرة للجدوى كعملية تشخيصية، حيث يعمل النموذج على التنبؤ بما إذا كانت الفرضية ممكنة أو غير ممكنة، ويحتاج إلى تبرير هذا القرار. ولتحقيق ذلك، تم تقييم عدة نماذج لغة في بيئات معرفة محددة، سواء كانت تعتمد على الفرضيات فقط أو تشمل التجارب والنتائج أو كليهما.

أظهرت النتائج أن تقديم الأدلة المتعلقة بالنتائج كان أكثر موثوقية من تقديم وصف التجارب. حيث أن نتائج التجارب قد تعزز دقة النماذج بشكل يفوق ما يقدمه المعرفة الداخلية وحدها، بينما قد تكون النصوص التجريبية هشة وقد تؤدي إلى تدهور الأداء عندما يكون السياق غير مكتمل.

تكشف هذه النتائج أهمية تقديم الأدلة التجريبية في تقييم جدوى الفرضيات العلمية باستخدام نماذج اللغة الكبيرة، وتوضح متى تكون هذه الأدلة مفيدة ومتى قد تintroduce fragility. يحث هذا البحث المجتمع العلمي على التفكير بعناية في كيفية تجهيز نماذج الذكاء الاصطناعي بمعلومات دقيقة، مما يساعد على تحقيق نتائج أكثر فاعلية في مجالات متعددة من الأبحاث.