في عالم الذكاء الاصطناعي، أصبحت نماذج اللغات الضخمة (LLMs) أدوات مبهرة تسهم في العديد من المهام المختلفة، بما في ذلك العمل في مجالات علمية مثل الكيمياء. لكن يبقى التحدي الأكبر هو كيفية تقييم هذه النماذج في سياق استخدام الأدوات العلمية بدقة وموضوعية.

في دراسة جديدة، تم تقديم مفهوم "ChemCost" كمعيار تقييم يهدف إلى معالجة هذه القضية. هذا المعيار يتضمن 1,427 تفاعلًا كيميائيًا مستندة إلى تسعير ثابت يغطي 2,261 مادة كيميائية و230,775 عرض سعر من الموردين. الهدف هو تمكين الوكلاء من تحديد هويات المواد الكيميائية، واسترجاع عروض الأسعار، واختيار الحزم القابلة للشراء، وتطبيع الكميات، ثم حساب التكلفة الإجمالية من وصف التفاعل.

ورغم أن الوصول إلى الأدوات يعد أمرًا حيويًا، إلا أن البحث أظهر أن بعض الوكلاء لم يتمكنوا من تحقيق دقة عالية، حيث بلغت دقتهم 50.6% فقط ضمن هامش خطأ نسبي يصل إلى 25% عند التعامل مع بيانات نظيفة. والأسوأ من ذلك، فقد انخفض الأداء بشكل كبير عند مواجهة الضوضاء الواقعية نتيجة للاختيارات غير الصحيحة والتكامل غير الفعال للأدلة.

تظهر هذه التجارب الحاجة الملحة لتطوير أساليب أكثر قوة يمكن أن تتحمل ظروف العالم الواقعي، مما يعني أن نماذج الذكاء الاصطناعي في الكيمياء بحاجة إلى تحسين مستمر لضمان نتائج دقيقة وموثوقة.