في خطوة مثيرة نحو تحسين فهم الآلات للرسومات الهندسية، تم إطلاق قاعدة بيانات MechVQA، وهي أول مجموعة شاملة تتناول تقييم نماذج اللغة متعددة الأنماط (Multimodal Large Language Models - MLLMs) في مجال الهندسة الميكانيكية.

الذكاء الاصطناعي يشهد تطوراً ملحوظاً في أداء نماذج اللغة، لكن عندما يتعلق الأمر بالرسومات الهندسية، فإن هناك تحديات كبيرة تتعلق بكثافة التوضيحات وضعف المعرفة المهيمنة. هذه الصعوبات، مع وجود قواعد صارمة في العلاقات المكانية والقيود الهندسية، تجعل من السهل فقدان المعلومات الحيوية، مما يؤدي إلى إجابات خاطئة.

تحتوي قاعدة بيانات MechVQA على 3,300 صورة عالية الكثافة وأكثر من 21,000 زوج من الأسئلة والإجابات، موزعة على 10 مهام دقيقة عبر ثلاثة مستويات من القدرات: التعرف، والاستنتاج، والحكم. يتيح ذلك اختبار قدرات نماذج MLLM وتحسينها في التعامل مع الرسومات الهندسية الحقيقية.

علاوة على ذلك، تم تطوير نموذج MechVL من خلال نموذج تدريبي متعدد المراحل، مما يوفر قاعدة متخصصة قوية. أظهرت النتائج التجريبية أن MechVL تفوق على أقوى النماذج المغلقة المصدر بفارق 7.57 نقطة مئوية على مقياس MechVQA الكلي.

تُعزز هذه النتائج من قدرة نماذج الذكاء الاصطناعي على فهم الرسومات الهندسية، مما يفتح آفاقاً جديدة لاستخدامها في تصميم الفحص الهندسي والتطبيقات العملية.