كيف تُغير نماذج اللغة الذكية طريقة تقييم الرياضيات؟ اكتشاف أخطاء تقييم التعلم بالإصلاح المفرط!

في عالم التعليم الذكي، يعتبر تحويل الكتابة اليدوية في الرياضيات بدقة أمرًا حيويًا للأنظمة الذكية. ومع ذلك، غالبًا ما تفشل المعايير الحالية في القياس الصحيح لهذا الإنجاز. تركز معظم الدراسات السابقة على التعبيرات ذات السطر الواحد وتعتمد على مقاييس لغوية تقليدية مثل BLEU التي لا تقيم التفكير الدلالي بشكل كافٍ عبر الحلول متعددة السطور.

في هذه الورقة البحثية، نقدم أول دراسة منهجية للكتابة اليدوية المتعددة السطور في الرياضيات باستخدام تقنيات التعرف على الحروف الضوئي (OCR)، مكتشفين وضع فشل حرج في نماذج اللغة الرؤية (VLMs): إصلاح مفرط. بدلاً من نقل عمل الطالب بدقة، تقوم هذه النماذج غالبًا بـ"إصلاح" الأخطاء، مما يخفي الأخطاء التي تهدف التقييمات التعليمية إلى اكتشافها.

لمواجهة هذا التحدي، نقترح مقياسًا جديدًا يُسمى PINK (مقياس مستند إلى الحبر الم penalized INK)، وهو مقياس تقييم دلالي يستفيد من نموذج لغة كبير (LLM) لتقدير الدرجات استنادًا إلى المعايير ويعاقب صراحة على الإصلاح المفرط.

أجريت تقييمات شاملة لـ 15 نموذجًا متقدمًا من VLMs على مجموعة بيانات FERMAT. وكانت النتائج مثيرة للاهتمام، حيث كانت هناك تبدلات كبيرة في الترتيب مقارنة بمقياس BLEU. نماذج مثل GPT-4o تعرضت لعقوبات كبيرة بسبب الإصلاح المفرط العدواني، في حين أظهرت Gemini 2.5 Flash أنها واحدة من أفضل النماذج التي تترجم بشكل أمين. وقد أظهرت تحليلات الخبراء أن مقياس PINK يتوافق بشكل أفضل مع حكم الإنسان، حيث حصل على تفضيل بنسبة 55.0% مقابل 39.5% لمقياس BLEU.

هذه النتائج تمثل نقطة تحول في كيفية تقييم الكتابة اليدوية بالرياضيات، مما يوفر إطارًا أكثر موثوقية للتقييم في البيئات التعليمية.

كيف تُغير نماذج اللغة الذكية طريقة تقييم الرياضيات؟ اكتشاف أخطاء تقييم التعلم بالإصلاح المفرط!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

هل تتعذر عليك الحصول على جهاز Mac Mini؟ تعرف على السبب وراء التأخير في التوريد!

هل يحدد OpenAI مستقبل الأمن السيبراني؟ الكشف عن أداة GPT-5.5 Cyber المبتكرة!

إيلون ماسك يكشف السر: كيف قامت xAI بتدريب Grok باستخدام نماذج OpenAI!