في عالم الذكاء الاصطناعي، يُعتبر دمج نماذج اللغة الضخمة (Large Language Models) في البرمجيات العلمية خطوة ثورية نحو تحسين دقة الحسابات. وقد أطلق الباحثون معيارًا جديدًا يدعى PHREEQC-MCQ-200، والذي يهدف إلى تقييم أداء الوكلاء الذين يستخدمون الأدوات في محاكاة الكيمياء الجيولوجية. يتألف هذا المعيار من 200 سؤال متعدد الخيارات مستندة إلى 21 سيناريو مثبت من PHREEQC، مما يتطلب من الوكلاء إنشاء مدخلات لمحاكياتهم، إجراء عمليات محاكاة، وفحص المخرجات المجموعة لتحقيق النتائج النهائية.

أظهرت النتائج أن الوصول إلى أدوات المحاكاة يعزز بشكل كبير من دقة العمليات الحسابية، إلا أن الفوائد لم تكن خطية. فقد لوحظ أن الوكلاء الذين يستخدمون أدوات قد يعانون من تدهور الأداء في بعض الحالات، مما يسلط الضوء على أهمية اختبار دقة كل عنصر على حدة. كما شملت الدراسة الفروقات في بروتوكولات الوصول إلى المخرجات، حيث أظهرت الفروقات في الأداء بين النماذج القوية وذات المستوى المتوسط.

وبهذا، يُعتبر PHREEQC-MCQ-200 إشارة واضحة إلى أن استخدام الأدوات العلمية ليس مجرد شيء تقني، بل هو عملية معقدة تتطلب فهمًا عميقًا لكيفية تنفيذ العمليات الحسابية بطريقة دقيقة وموثوقة. يجب على التقييمات المستقبلية للوكلاء العلميين أن تأخذ بعين الاعتبار هذه العوامل لضمان تحقيق نتائج دقيقة وشاملة.