على مدى عقود، سجلت الأدبيات العلمية في مجال علم المواد تجارب ثرية من خلال الرسوم البيانية، لكن هذه السجلات غالباً ما كانت مغلقة وغير قابلة للوصول من قِبَل الذكاء الاصطناعي. يبدأ الحل من فهم صعوبة البنية الهيكلية للرسوم، حيث تُوصف معظم الرسوم العلمية بكتابات توضيحية واحدة تُعبر عن عدة لوحات فرعية في وقت واحد، مما يجعل الربط المباشر بين الصور والنصوص غير موثوق به.
بفضل مشروع MatMMExtract، قدم الباحثون خط أنابيب مفتوح المصدر يساهم في فك هذا التعقيد عن طريق تقسيم الرسوم المركبة إلى لوحات فرعية فردية، وتوليد تعليقات منظمة ودقيقة باستخدام نموذج لغوي ضخم يستند إلى تصنيف دقيق لعلم المواد.
تم تطبيق تقنية MatMMExtract على 14,810 مقالة مفتوحة الوصول، مما أسفر عن توفير مجموعة بيانات MatSciFig التي تحتوي على 391,606 زوج من الصور والنصوص، كل منها مزودة بتعليق فرعي وفئات بصرية تتضمن 19 تصنيفًا وأكثر من 100 نوع فرعي، إضافة إلى ملخص علمي.
لضمان تحديد دقيق للوحات، تم تقديم مجموعة بيانات MaterialScope، والتي تحتوي على 2,811 شكلاً علميًا يُظهر توضيحات تم وضع علامات عليها يدويًا. أظهر كاشف YOLO12-m الذي تم تحسينه أداءً ممتازًا، حيث حقق معدل دقة mAP_50 يصل إلى 0.9227.
تباينت الأبحاث بين نماذج لغوية مختلفة، وأظهرت نتيجة نموذج Gemini 3.1 Flash Lite أفضل توازن بين التكلفة والجودة في توليد التعليقات، مع تقييم 82% من النواتج بأنها جيدة ومعدل خيال بلغ 4.8%.
كما حقق خط الأساس للاسترجاع ذي المزدوج المُشفر أداءً أعلى بـ 4.4 مرات في مجال الاسترجاع (R@1) مقارنة بنموذج CLIP القائم على الصفر، مؤكدًا على فوائد هذه المجموعة الجديدة في التعلم المتعلق بالرؤية واللغة. جميع الموارد متاحة للجمهور للمساهمة في نمو المجتمع العلمي.
فتح السجل البصري لعلم المواد: مجموعة بيانات متعددة الأنماط من الأدبيات العلمية
تقدم مجموعة بيانات MatMMExtract حلاً مبتكرًا لفك رموز السجل البصري في علم المواد، مما يتيح للذكاء الاصطناعي الاستفادة منه بشكل أفضل. تشمل المجموعة أكثر من 390,000 زوج من الصور والنصوص، مما يعزز التعلم المتعلق برؤية اللغة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
