مع تقدم تقنيات الذكاء الاصطناعي ونماذج اللغة الكبيرة (Large Language Models)، أثبتت هذه النماذج أداءً قوياً في المهام الرياضية تحت ظروف محددة بوضوح. ولكن، هل تستطيع هذه النماذج مواجهة التحديات الهندسية الحقيقية التي تتسم بعدم اليقين ووجود سياقات متعددة؟

يُقدِّم إنجي بنش (EngiBench) معياراً مبتكراً مصمماً خصيصًا لتقييم قدرة نماذج اللغة الكبيرة في حل المشكلات الهندسية. هذا المعيار يتجاوز الطرق التقليدية، حيث يقسم تلك المشكلات إلى ثلاثة مستويات من الصعوبة المتزايدة: استرجاع المعرفة التأسيسية، التفكير السياقي، والنمذجة المفتوحة.

كل مستوى يعكس تحديات حقيقية تواجه المهندسين، وبدلاً من الاعتماد فقط على التفكير المجرد أو الشروط المثالية، يتم الضغط على هذه النماذج لتظهر كفاءتها في مواقف غير متوقعة. لتحقيق فهم أعمق لأداء النماذج، تم إعادة صياغة كل مشكلة إلى ثلاثة تنويعات متحكمة: متغيرة، مدعومة بالمعرفة، وتجريد رياضي. يتيح هذا النهج تقييمًا منفصلاً لقوة النموذج، معرفته المتخصصة، وقدرته على التفكير الرياضي.

بينما تكشف النتائج التجريبية عن تصنيف واضح لأداء النماذج عبر مستويات الصعوبة - تتناقص الدقة مع زيادة تعقيد المهام - تظل نتائجها أقل بكثير من الأداء البشري في المهام الهندسية المعقدة. هذه النتائج تسلط الضوء على الحاجة الملحة لنماذج مستقبلية تتمتع بقدرات أعمق وأكثر موثوقية في حل المشكلات.

لمزيد من المعلومات، يمكنك زيارة [رابط GitHub](https://github.com/AI4Engi/EngiBench) الخاص بالمبادرة. فهل أنتم متحمسون لرؤية كيف ستتطور هذه النماذج في المستقبل؟