في عالم الكيمياء، يعتبر التعرف على الهياكل الجزيئية (Molecular Structure Recognition) عبر النماذج البصرية أمرًا حيويًا، خاصة عندما يتعلق الأمر بتحويل الرسوم الجزيئية ثنائية الأبعاد من الأدبيات المطبوعة إلى صيغ يمكن للآلات التعامل معها. وقد برزت نماذج رؤية-لغة (Vision-Language Models) كأداة واعدة في مهام التعرف على النصوص، ولكن تطبيقها المباشر على التعرف على الهياكل الكيميائية أظهر تحديات ملحوظة. في هذا السياق، طُورت تقنية جديدة تتضمن تحسين نظام DeepSeek-OCR-2، حيث تمت صياغة المهمة كنظام لتوليد SMILES المعتمد على الصور.

لتجاوز عدم الاستقرار أثناء التدريب، اقترح الباحثون استراتيجية تدريب مشروطة متعددة المراحل، تبدأ بأسلوب LoRA الفعال في استخدام الموارد، ومن ثم الانتقال إلى تحسين كامل للمعلمات بأساليب تعلم متفرقة. تم تدريب النموذج على مجموعة بيانات واسعة تجمع بين الرسوم الاصطناعية من قاعدة بيانات PubChem وصور براءات الاختراع الواقعية من USPTO-MOL، مما عزز من قدراته في تحويل المعلومات.

بعد التحسين، أظهر النموذج الجديد، MolSeek-OCR، دقة مطابقة مذهلة، تساوي أفضل النماذج أداءً في تحويل الصورة إلى تسلسل. ومع ذلك، لا يزال أداؤه أقل من نماذج الصورة إلى الرسم البياني الرائدة.

توسعت الدراسة لتشمل أساليب تعزيز ما بعد التدريب وتنقيح البيانات، ولكن للأسف لم تؤدِ هذه الأساليب إلى تحسين الدقة المطلوبة لمطابقة SMILES تمامًا. إن هذا البحث يُعد خطوة مثيرة في تحسين أدوات التعرف على الهياكل الجزيئية ويعكس الاتجاهات المستقبلية في هذا المجال.