في مجال التعلم والتعليم، حظيت نماذج اللغات الضخمة (Large Language Models) باهتمام واسع النطاق، وخاصة عندما يتعلق الأمر بتسهيل عملية التصحيح في امتحانات الرياضيات المفتوحة. بناءً على دراسة جديدة تم نشرها في arXiv، تم تقييم ستة نماذج معاصرة، بما في ذلك Gemini 3.1 Pro Extended وChatGPT 5.5 Pro Extended، كمعاونين في تصحيح امتحانات الرياضيات للطلاب الجامعيين.

تقدم امتحانات الرياضيات المفتوحة فرصة لتقييم مهارات التفكير النقدي والتحليل، لكنها تبقى تحديًا كبيرًا عندما يتعلق الأمر بتطبيق معايير التصحيح. حيث يحتاج المعلمون إلى إبداء ملاحظات دقيقة تساعد الطلاب على تصحيح الأفكار الخاطئة.

تقوم الدراسة بمقارنة سياستين لتصحيح الامتحانات، الأولى تسمى "السياسة الأساسية" التي تعتمد على معايير صارمة، والثانية "السياسة المتحررة" التي تأخذ في الاعتبار النقاط الجزئية عند التصحيح. أظهرت النتائج أن استخدام السياسة المتحررة يقلل من متوسط الخطأ عند تصحيح الأسئلة بالنسبة لجميع نماذج الذكاء الاصطناعي التي تم تقييمها.

وفقًا للدراسة، حصل نموذج ChatGPT 5.5 Thinking تحت السياسة المتحررة على أقل متوسط خطأ (1.87) بينما كانت Gemini 3.1 Pro Extended هي الأفضل في الحفاظ على الدرجات الإجمالية.

تسلط هذه النتائج الضوء على إمكانيات استخدام الذكاء الاصطناعي كأداة فعالة في تصحيح الامتحانات، مما يعزز الدقة ويخفف عبء العمل على المعلمين. كيف تقيم هذه التطورات؟ وهل تعتبر هذه النماذج المستقبل في مجال التعليم؟ شاركونا آراءكم في التعليقات!