تواجه نماذج اللغة الكبيرة متعددة الوسائط (Multimodal Large Language Models) تحديات كبيرة في معالجة مشاكل الهندسة، لا سيما في الفهم الصحيح للرسومات، وتطبيق المعرفة، وتفكير طويل الخطوات، وبناء الخطوط المساعدة. وبسبب محدودية المعايير الحالية، قدم الباحثون GeoLaux، وهي مجموعة بيانات موسعة ودقيقة تضم 2186 مشكلة حسابية وإثباتات تتطلب تفكيرًا طويل الخطوات.

تتضمن GeoLaux مشاكل ذات طول متوسط للحل يصل إلى 6.51 خطوات، و21.8% من المشاكل تحتاج إلى إنشاء خطوط مساعدة. ومن خلال هذه المجموعة، تم إجراء تقييم شامل لنحو 23 نموذجًا رائدًا في مجال الذكاء الاصطناعي. والنتائج كانت مثيرة للغاية!

أبرز نتائج هذا البحث تشير إلى أن:
1. النماذج تعاني بشكل ملحوظ في معالجة المشاكل طويلة الخطوات مقارنة بالقصيرة، حيث انخفض أداء 18 نموذجًا بأكثر من 50%.
2. من الضروري تعزيز فهم النماذج للخطوط المساعدة، حيث تعتبر أساسية لتحسين التفكير الهندسي.
3. كانت النصائح المحدودة لتحسين الإجابات فعالة في تحسين صحة العمليات، بينما أدت الإجابات الواضحة إلى تجاهل الخطوات الوسيطة.

يمثل GeoLaux معيارًا جديدًا يساعد على تقييم قدرات نماذج الذكاء الاصطناعي في مجال الهندسة، كما يوجه الجهود لتحسين الأداء في المستقبل. يمكنكم الاطلاع على البيانات والكود المستخدمة في هذا البحث عبر [رابط](https://github.com/Candice-yu/GeoLaux). ما رأيكم في هذه التطورات المثيرة؟ شاركونا آرائكم في التعليقات.