في ظل التوسع السريع في الأدبيات الكيميائية، يواجه الباحثون تحديات كبيرة في الوصول إلى المعرفة المتخصصة بشكل فعال. ولتلبية هذه الحاجة، تم تقديم مشروع ChemQuests، الذي يعدّ قاعدة بيانات منظمة تحتوى على 952 زوجاً من الأسئلة والإجابات (QA) المستخلصة من 155 ورقة بحثية منشورة على ChemRxiv، تغطي 17 مجالاً فرعياً في الكيمياء.

تتميز كل مجموعة من الأسئلة والإجابات بارتباطها الواضح بالنص المصدر، مما يضمن الدقة والسياق المناسب. تم بناء ChemQuests عبر استخدام خط أنابيب آلي يجمع بين تقنية التعرف على الأحرف البصرية (OCR) وإنتاج الأسئلة والإجابات باستخدام نموذج GPT-4o والتحقق من خلال البحث الضبابي.

تركز مجموعة البيانات على الأسئلة المفاهيمية والتجريبية، مما يتيح استخداماتها في أنظمة الأسئلة والإجابات المعتمدة على الاسترجاع، وتطوير محركات البحث، وضبط النماذج اللغوية الكبيرة المتخصصة. كما يتم تحليل بنية مجموعة البيانات ومدى تغطيتها، بالإضافة إلى التحديات التي تواجهها، مع توضيح الاتجاهات المستقبلية للتوسع والتحقق من قبل الخبراء.

ChemQuests تمثل مورداً أساسياً لأبحاث معالجة اللغة الطبيعية في الكيمياء، وتساهم في تطوير الأدوات التعليمية والبحثية في هذا المجال.