أحدثت [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models)) ثورة في [معالجة النصوص](/tag/معالجة-النصوص) العلمية، ولكنها واجهت [تحديات](/tag/تحديات) عند محاولة [تفسير](/tag/تفسير) [الرسوم البيانية](/tag/الرسوم-البيانية) للتفاعلات الكيميائية. تكشف [الدراسة](/tag/الدراسة) الحديثة عن وجود عائقين أساسيين يعيقان [الأداء](/tag/الأداء) الحالي لهذه الأنظمة: العجز البصري، حيث تعاني [معالجات](/tag/معالجات) [الصور](/tag/الصور) العامة في التعامل مع التوصيلات التركيبية الدقيقة للشبكات الجزيئية الكثيفة، والانفصال الدلالي، حيث تفشل السلاسل الخطية التقليدية مثل SMILES في تفعيل [التفكير](/tag/التفكير) الكيميائي الكامن بشكل فعال.

لتجاوز هذه العقبات، تم [اقتراح](/tag/اقتراح) إطار [عمل](/tag/عمل) يسمى تفعيل [الصور](/tag/الصور) الكيميائية (ChemVA)، الذي يعتمد على آلية "المرساة البصرية" (Visual Anchor) لتحديد [المجموعات](/tag/المجموعات) الوظيفية [عبر](/tag/عبر) [كشف](/tag/كشف) [هجين](/tag/هجين) ومتعدد الدرجات، تليها نهج [التوافق](/tag/التوافق) الدلالي الذي يترجم الميزات البصرية إلى أسماء الكيانات، وذلك لتعظيم تفعيل [المعرفة](/tag/المعرفة) في [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة).

أجرينا تقييمًا لطريقتنا على [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) جديدة تعرف باسم OCRD-Bench، والتي تحتوي على [سياقات](/tag/سياقات) بصرية-[دلالية](/tag/دلالية) كثيفة وتغطية شاملة للتفاعلات. أظهرت [التجارب](/tag/التجارب) الشاملة على هذه المجموعة أن ChemVA [تحقق](/tag/تحقق) [دقة](/tag/دقة) في [التعرف](/tag/التعرف) الهيكلي تصل إلى 92.0%. ومن خلال معالجة العوائق البصرية والدلالية، يحقق [إطار العمل](/tag/إطار-العمل) لدينا تحسينًا متسقًا بنسبة حوالي 20 نقطة مئوية [عبر](/tag/عبر) 9 [نماذج](/tag/نماذج) متنوعة من LLMs، مما يمكن [النماذج](/tag/النماذج) ذات الأوزان المفتوحة من [التنافس](/tag/التنافس) مع الأنظمة المملوكة الرائدة في المهام الكيميائية المعقدة.