مع تطور تكنولوجيا الذكاء الاصطناعي، يبدو أن نماذج اللغة متعددة الوسائط (Multimodal Large Language Models) أصبحت ركيزة أساسية في ثورة التعليم. تعمل هذه النماذج على تقليل عبء المعلمين، لكنها تواجه تحديات كبيرة في تقييم الحلول المكتوبة بخط اليد لطلاب مجالات العلوم والتكنولوجيا والهندسة والرياضيات (STEM).

إحدى هذه التحديات تكمن في عدم وجود قياسات موثوقة ومحكية لتقييم مدى فهم هذه النماذج للمحتوى المكتوب بطريقة حرّة، الذي يتضمن صيغاً رياضية، ورسومات، وأفكار نصية معقدة. تعتمد وسائل التقييم الحالية إلى حد كبير على نتائج المهام التطبيقة مثل التقييم التلقائي، والذي غالبًا ما يفتقد القدرة على قياس فهم النماذج للإجابة ككل، مما يكشف عن عيوب أساسية.

لمعالجة هذه المشكلة، تم إطلاق مجموعة بيانات جديدة تحت اسم "EDU-CIRCUIT-HW"، والتي تحتوي على أكثر من 1300 حل مكتوب بخط اليد من طلاب جامعيين في تخصصات STEM. وتعتبر هذه المجموعة مرجعًا حقيقيًا لتقييم دقة نظام التعرف على الخط اليدوي والتقييم الآلي للأزمنة.

أظهرت الأبحاث أن النماذج الحالية تفشل في موثوقية استكشاف المحتوى المكتوب، مما يؤدي إلى ضعف القدرة على القيام بالتقييمات التلقائية في البيئات التعليمية المعقدة. كحل، تم تقديم دراسة حالة تُبرز كيفية استخدام نمط الأخطاء المكتشفة لتحسين دقة التعرف على الخط اليدوي باستخدام تدخل بشري محدود، مما أدى لتحسين نظام التقييم الذكي إلى حد كبير.

إذاً، كيف يمكن لهذه التطورات أن تغير الطريقة التي ننظر بها إلى التعليم والتقييم في المؤسسات الأكاديمية؟