في عالم الذكاء الاصطناعي، لا تزال نماذج اللغات الضخمة (Large Language Models) تجذب الانتباه بتقدمها الملحوظ، خاصة في حل المشكلات الرياضية. لكن هل تعتقدون أنها تستطيع تقييم الطريقة التي يفكر بها الطلاب في هذه المسائل؟ دراسة حديثة تحت عنوان RealMath-Eval تكشف عن جوانب مثيرة للدهشة.

تمت دراسة 224 ردًا حقيقيًا من طلاب المرحلة الثانوية وتم تحليل أداء نماذج الذكاء الاصطناعي في تقييم هذه الإجابات. أظهرت النتائج أن هذه النماذج لم تتمكن من تقييم الإجابات بدقة مثل الخبراء البشر، مسجلة معدل خطأ متوسط يبلغ حوالي 2.96. يتضح أن الفجوة في التقييم بين الآلة والتفكير البشري كبيرة

للتحقق من أسباب هذه النتائج، تم تقييم الأداء في سيناريوهات مختلفة، حيث أظهرت النماذج أداءً جيدًا في التعامل مع الإجابات التي تم إنشاؤها بواسطةها، بما في ذلك متوسط خطأ يبلغ 1.17. بينما واجهت صعوبة في تعميم أدائها عند تقييم التفكير الحقيقي للطلاب.

من خلال تحليل أخطاء التقييم، ظهرت لنا صورة واضحة من نوع مختلف من الأخطاء المتوقعة في النصوص الاصطناعية، حيث بدت الطبيعة الهيكلية لهذه الأخطاء بسيطة ومتكررة. أما الأخطاء البشرية فكان لها تنوع أكبر، مما يشير إلى مستوى أعمق من التفكير.

الدراسة تشدد على أهمية مراعاة تنوع الأساليب الرياضية التي يستخدمها الطلاب، حيث أن نماذج الذكاء الاصطناعي الحالية قد لا تستطيع التعرف على هذه التباينات. ووجهة نظر الباحثين أن نماذج الذكاء الاصطناعي بحاجة إلى إعادة تقييم كيفية عملها مع بيانات واقعية لتفادي هذه الفجوة.

ختامًا، هل تعتقدون أن هذه الموديلات ستتحسن في المستقبل القريب؟ شاركونا آرائكم في التعليقات.