في عالم التعليم، تحظى نماذج اللغة الكبيرة (LLMs) بشعبية متزايدة، حيث تقدم استجابات شبيهة بالطلاب، مما يجعلها جذابة لتدريب وتقييم المعلمين وآلات التعليم الذكية. ولكن، ما لم يُدرس بشكل كافٍ هو مدى قدرتها على محاكاة سلوك الطلاب الفعلي، خاصة عندما يتعلق الأمر بالمفاهيم الخاطئة.

تُظهر الدراسات الحديثة أن هذه النماذج تُقيّم غالبًا بناءً على تشابه مخرجاتها مع استجابات الطلاب الفعليين، دون النظر إلى ما إذا كانت تُظهر سلوكيات طلابية معقدة مثل الاحتفاظ بمفاهيم خاطئة. نحن نقدم إطار عمل مُحكَم لتقييم مصداقية المفاهيم الخاطئة، حيث نقوم باختبار مدى احتفاظ الموديلات بحالة إيمان مدفوعة بمفهوم خاطئ وتحديثاتها عندما تتلقى ملاحظات تتعلق بمفهومها الخاطئ الأساسي.

محور هذا الإطار هو بروتوكول ملاحظات متباينة ضد المفاهيم، والذي يقارن بين ملاحظات مستهدفة وملاحظات تحكم تركز على مفاهيم خاطئة أخرى، بالإضافة إلى ملاحظات عامة لا تشير سوى إلى الخطأ في الإجابة.

لقد اقترحنا معيارًا جديدًا يُسمى معدل الانقلاب الانتقائي (Selective Flip Score) والذي يقيس مدى تغير إجابة النموذج استجابةً لملاحظات مستهدفة مقارنةً مع الملاحظات المتباينة. وعلى مدار دراسات شملت سبعة نماذج لغوية، لم تُظهر الموديلات تحقيقًا ملموسًا في قيمة المعدل، حيث كانت تُصحّح إجاباتها بنفس المعدل بغض النظر عن مدى صلة الملاحظات بتلك المفاهيم.

تحليلات إضافية جلبت الانتباه إلى نوع من الفشل الذي يُعرف بالفشل التصنعى: حيث تتصرف النماذج أكثر كنموذج حل المشكلات بدلاً من تمثيلها المُفترض للطلاب ذوي المفاهيم الخاطئة. لمعالجة هذه القضية، قمنا بتطوير سلسلة من الإجراءات بعد التدريب تشمل تحسين دقيق ومكافأة متوافقة مع المقياس.

أظهرت نتائج الدراسة أنه يمكن تحسين مصداقية المفاهيم الخاطئة بشكل بارز، مما يُحفز التحول من نماذج ثابتة مبنية على المخرجات إلى نمذجة تفاعلية تستند إلى المعتقدات الطلابية. هذه النتائج تفتح آفاقًا جديدة في تطوير أنظمة التعليم الذكي.

ما رأيكم في أهمية تصحيح المفاهيم الخاطئة عند تطوير أنظمة الذكاء الاصطناعي التعليمية؟ شاركونا في التعليقات.