تعتبر الهياكل الجزيئية ركيزة أساسية لفهم الوظائف الكيميائية، ولذا فإن الربط الدقيق بين هذه الهياكل واللغة الطبيعية يعد أمرًا بالغ الأهمية. حيث قام الباحثون بتطوير إطار عمل آلي متقدم يمكنه إنتاج أوصاف جزيئية دقيقة تحتفظ بالتفاصيل الهيكلية الكاملة على نطاق واسع.

يعتمد هذا الابتكار على تحسين أداة تحليل الأسماء الكيميائية القائمة على القواعد، وهو ما يساعد الباحثين في تفسير الأسماء وفقًا لمعايير الاتحاد الدولي للكيمياء البحتة والتطبيقية (IUPAC) وتصميم بيانات وصفية XML غنية تعكس الهيكل الجزيئي بوضوح.

باستخدام هذا الإطار، تم تجميع مجموعة بيانات كبيرة تحتوي على ما يقرب من 163,000 زوج من الجزيئات والأوصاف. ولضمان الجودة، تم اعتماد بروتوكول واضح للتحقق يجمع بين تقييمات نماذج اللغة الكبيرة (LLMs) وتقييمات الخبراء البشر، حيث أثبتت النتائج دقة الأوصاف وصلاحيتها بنسبة تصل إلى 98.6%.

هذا الابتكار يوفر قاعدة موثوقة لمزيد من المهام الكيميائية التي تعتمد على الأوصاف الهيكلية، كما يساهم في تعزيز قدرة نماذج اللغة على التعامل مع المهام الكيميائية المعقدة. يمكن للمهتمين الاطلاع على الكود المصدر ومجموعة البيانات عبر الروابط المتاحة على GitHub وHugging Face.