بينما يتقدم الذكاء الاصطناعي في قدرته على فهم العالَم المحيط، يبدو أن هناك فجوة كبيرة في وجود معايير صارمة لتقييم قدرته على توليد نماذج علمية صحيحة من الناحية الفيزيائية. هنا يأتي دور معيار FEM-Bench، المعيار الثوري المخصص لتقييم الأداء العلمي للنماذج اللغوية الكبيرة (LLMs) في ميكانيكا الحاسوب.

تعد ميكانيكا الحاسوب فرعاً مهماً يقوم على تطوير وتطبيق نماذج رياضية وطرق عددية للتنبؤ بسلوك الأنظمة الفيزيائية تحت تأثير القوى، التشوهات، والقيود. يتطلب هذا المجال بناء نماذج صريحة للأنظمة الفيزيائية والتفكير في العلاقات الهندسية والمكانية وسلوك المواد، مما يتصل مباشرة بالأهداف المتزايدة للذكاء الاصطناعي في فهم الفيزياء ونمذجة العالم.

يقدم معيار FEM-Bench مجموعة من المهام التمهيدية لكن غير البسيطة، تتماشى مع مواد دورة دراسات عليا في ميكانيكا الحاسوب. تعكس هذه المهام التحديات الأساسية في النمذجة العددية والفيزيائية، على الرغم من كونها تمثل جزءاً صغيرًا من التعقيد الموجود في هذا المجال.

وأظهرت التجارب أن النماذج اللغوية الكبرى الحالية، على الرغم من تقدمها، لا تستطيع حل جميع هذه المهام بشكل موثوق. مثلاً، في تجربة تم تنفيذها لخمس محاولات، تمكن نموذج Gemini 3 Pro، الأفضل في كتابة الوظائف، من إكمال 30 من أصل 33 مهمة مرة واحدة على الأقل و26 مهمة في جميع المحاولات الخمس. أما نموذج GPT-5 الذي أثبت تفوقه في كتابة اختبارات الوحدة، فقد حقق معدل نجاح مشترك متوسّط قدره 73.8%. كما أظهرت نماذج أخرى أداءً متبايناً بشكل واسع.

يؤسس معيار FEM-Bench أساساً هيكلياً لتقييم الأكواد العلمية المنتجة بالذكاء الاصطناعي، ومن المتوقع أن تتضمن التحديثات المستقبلية مهاماً أكثر تعقيداً تتابع تقدم النماذج مع مرور الوقت. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.