مع تطور تكنولوجيا الذكاء الاصطناعي، يبدو أن نماذج اللغة متعددة الوسائط (Multimodal Large Language Models) أصبحت ركيزة أساسية في ثورة التعليم. تعمل هذه النماذج على تقليل عبء المعلمين، لكنها تواجه تحديات كبيرة في تقييم الحلول المكتوبة بخط اليد لطلاب مجالات العلوم والتكنولوجيا والهندسة والرياضيات (STEM).
إحدى هذه التحديات تكمن في عدم وجود قياسات موثوقة ومحكية لتقييم مدى فهم هذه النماذج للمحتوى المكتوب بطريقة حرّة، الذي يتضمن صيغاً رياضية، ورسومات، وأفكار نصية معقدة. تعتمد وسائل التقييم الحالية إلى حد كبير على نتائج المهام التطبيقة مثل التقييم التلقائي، والذي غالبًا ما يفتقد القدرة على قياس فهم النماذج للإجابة ككل، مما يكشف عن عيوب أساسية.
لمعالجة هذه المشكلة، تم إطلاق مجموعة بيانات جديدة تحت اسم "EDU-CIRCUIT-HW"، والتي تحتوي على أكثر من 1300 حل مكتوب بخط اليد من طلاب جامعيين في تخصصات STEM. وتعتبر هذه المجموعة مرجعًا حقيقيًا لتقييم دقة نظام التعرف على الخط اليدوي والتقييم الآلي للأزمنة.
أظهرت الأبحاث أن النماذج الحالية تفشل في موثوقية استكشاف المحتوى المكتوب، مما يؤدي إلى ضعف القدرة على القيام بالتقييمات التلقائية في البيئات التعليمية المعقدة. كحل، تم تقديم دراسة حالة تُبرز كيفية استخدام نمط الأخطاء المكتشفة لتحسين دقة التعرف على الخط اليدوي باستخدام تدخل بشري محدود، مما أدى لتحسين نظام التقييم الذكي إلى حد كبير.
إذاً، كيف يمكن لهذه التطورات أن تغير الطريقة التي ننظر بها إلى التعليم والتقييم في المؤسسات الأكاديمية؟
ثورة التعليم: تقييم نماذج اللغة متعددة الوسائط لحل مشكلات طلاب STEM في الجامعات
تمكن نماذج اللغة متعددة الوسائط (MLLMs) من تغيير منظومة التعليم التقليدي وتقليل عبء العمل على المعلمين. ولكن، كيف يمكن تقييم قدرتها على فهم الحلول المكتوبة بخط اليد في مجالات العلوم والتكنولوجيا والهندسة والرياضيات؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
