في عصر الذكاء الاصطناعي، تزداد استخدامات نماذج اللغات الضخمة (Large Language Models) كأدوات مساعدة في مجال الكيمياء، إلا أن التقييم التقليدي لا يغطي سوى الإجابات النهائية. هذا الأمر قد يخفي مشكلات حرجة، حيث يمكن أن تنتج النماذج الناتج الصحيح بينما يقع تفكيرها في تناقض مع المنطق الكيميائي.
لقد قمنا بتطوير ChemCoTBench-V2، وهي أداة تقييم تشخيصية مبتكرة تسمح بتحليل موثوقية التفكير الكيميائي بأقل تكلفة وبطريقة قابلة للتدقيق. تمتد هذه الأداة لتغطية شتى جوانب فهم الجزيئات، تحريرها، تحسينها، وتوقع التفاعلات، مع 5620 عينة تقييم عبر 18 مهمة.
تكمن أهمية ChemCoTBench-V2 في إلزام النماذج بإظهار الخطوات الوسيطة الرئيسية وفق قوالب مصممة من قبل خبراء، حيث يتم التحقق من هذه الخطوات وفقًا لقواعد كيميائية صارمة، بدلاً من الاعتماد على نموذج آخر لتقييم الإجابات. كما أن التقييم في مهام تحسين الجزيئات المفتوحة يعتمد على قيود قابلة للتحقق بدلاً من المطابقة الصارمة.
هذه الأداة تُنتج ثلاثة إشارات مستقلة: صحة الإجابة النهائية، والامتثال للقالب، وصحة خطوات التحقق وفق التعهدات الوسيطة التي صقلها الخبراء. تكشف التجارب على النماذج الأكثر تقدمًا عن فجوة مستمرة بين نجاح الإجابة النهائية والتوافق في حالات التفكير المنظم، حيث غالبًا ما تفي النماذج بالصيغة المطلوبة لكنها تفشل في التحقق الكيميائي، أو قد تجيب بشكل صحيح ولكن مع دعم ضعيف للتفكير.
باستخدام ChemCoTBench-V2، يمكن مقارنة النماذج بشكل دقيق وتحديد الخطوة المحددة التي تخالف فيها العمليات قواعد التحقق. هذه الأداة ليست مجرد وسيلة تقييم، بل هي خطوة نحو تحسين كيفية استخدام الذكاء الاصطناعي في الكيمياء، مما يعزز من موثوقية واستنتاجات هذه النماذج.
من الإجابات إلى الحالات: تقييم عمليات موثوق للذكاء الاصطناعي في الكيمياء
تقدم ChemCoTBench-V2 منصة مبتكرة لتقييم كيفية تفكير نماذج اللغات الضخمة (Large Language Models) في الكيمياء، حيث يسلط الضوء على الفجوة بين الإجابة النهائية والعمليات المنطقية. رحلة فريدة نحو تعزيز دقة الذكاء الاصطناعي في المجال الكيميائي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
