EngiBench: المعيار الثوري لتقييم نماذج اللغة الكبيرة في حل المشكلات الهندسية!

مع تقدم تقنيات الذكاء الاصطناعي ونماذج اللغة الكبيرة (Large Language Models)، أثبتت هذه النماذج أداءً قوياً في المهام الرياضية تحت ظروف محددة بوضوح. ولكن، هل تستطيع هذه النماذج مواجهة التحديات الهندسية الحقيقية التي تتسم بعدم اليقين ووجود سياقات متعددة؟

يُقدِّم إنجي بنش (EngiBench) معياراً مبتكراً مصمماً خصيصًا لتقييم قدرة نماذج اللغة الكبيرة في حل المشكلات الهندسية. هذا المعيار يتجاوز الطرق التقليدية، حيث يقسم تلك المشكلات إلى ثلاثة مستويات من الصعوبة المتزايدة: استرجاع المعرفة التأسيسية، التفكير السياقي، والنمذجة المفتوحة.

كل مستوى يعكس تحديات حقيقية تواجه المهندسين، وبدلاً من الاعتماد فقط على التفكير المجرد أو الشروط المثالية، يتم الضغط على هذه النماذج لتظهر كفاءتها في مواقف غير متوقعة. لتحقيق فهم أعمق لأداء النماذج، تم إعادة صياغة كل مشكلة إلى ثلاثة تنويعات متحكمة: متغيرة، مدعومة بالمعرفة، وتجريد رياضي. يتيح هذا النهج تقييمًا منفصلاً لقوة النموذج، معرفته المتخصصة، وقدرته على التفكير الرياضي.

بينما تكشف النتائج التجريبية عن تصنيف واضح لأداء النماذج عبر مستويات الصعوبة - تتناقص الدقة مع زيادة تعقيد المهام - تظل نتائجها أقل بكثير من الأداء البشري في المهام الهندسية المعقدة. هذه النتائج تسلط الضوء على الحاجة الملحة لنماذج مستقبلية تتمتع بقدرات أعمق وأكثر موثوقية في حل المشكلات.

لمزيد من المعلومات، يمكنك زيارة [رابط GitHub](https://github.com/AI4Engi/EngiBench) الخاص بالمبادرة. فهل أنتم متحمسون لرؤية كيف ستتطور هذه النماذج في المستقبل؟

EngiBench: المعيار الثوري لتقييم نماذج اللغة الكبيرة في حل المشكلات الهندسية!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

تحديات تطوير تطبيق بريد إلكتروني يدهش الجميع!

ثورة الذكاء الاصطناعي: OpenAI تطلق إضافة كروم جديدة لوكيل Codex تسهل التفاعل مع أشهر المنصات!

دفاعات إلكترونية مبتكرة: نموذج CyberSecQwen-4B وجعل الأمن الإلكتروني محليًا!