أحدثت نماذج اللغة الكبيرة (Large Language Models) ثورة في معالجة النصوص العلمية، ولكنها واجهت تحديات عند محاولة تفسير الرسوم البيانية للتفاعلات الكيميائية. تكشف الدراسة الحديثة عن وجود عائقين أساسيين يعيقان الأداء الحالي لهذه الأنظمة: العجز البصري، حيث تعاني معالجات الصور العامة في التعامل مع التوصيلات التركيبية الدقيقة للشبكات الجزيئية الكثيفة، والانفصال الدلالي، حيث تفشل السلاسل الخطية التقليدية مثل SMILES في تفعيل التفكير الكيميائي الكامن بشكل فعال.

لتجاوز هذه العقبات، تم اقتراح إطار عمل يسمى تفعيل الصور الكيميائية (ChemVA)، الذي يعتمد على آلية "المرساة البصرية" (Visual Anchor) لتحديد المجموعات الوظيفية عبر كشف هجين ومتعدد الدرجات، تليها نهج التوافق الدلالي الذي يترجم الميزات البصرية إلى أسماء الكيانات، وذلك لتعظيم تفعيل المعرفة في نماذج اللغة الكبيرة.

أجرينا تقييمًا لطريقتنا على مجموعة بيانات جديدة تعرف باسم OCRD-Bench، والتي تحتوي على سياقات بصرية-دلالية كثيفة وتغطية شاملة للتفاعلات. أظهرت التجارب الشاملة على هذه المجموعة أن ChemVA تحقق دقة في التعرف الهيكلي تصل إلى 92.0%. ومن خلال معالجة العوائق البصرية والدلالية، يحقق إطار العمل لدينا تحسينًا متسقًا بنسبة حوالي 20 نقطة مئوية عبر 9 نماذج متنوعة من LLMs، مما يمكن النماذج ذات الأوزان المفتوحة من التنافس مع الأنظمة المملوكة الرائدة في المهام الكيميائية المعقدة.