في عالم التعليم الحديث، يعتبر التقدير الدقيق لصعوبات الأسئلة أو المهام (item difficulty) أمرًا بالغ الأهمية لتقديم تقييمات تعليمية فعالة. ومع ذلك، تواجه هذه المهمة تحديات كبيرة، خاصة مع ما يُعرف بمشكلة البدء البارد (cold start problem).

بعد أن أظهرت نماذج اللغة الضخمة (Large Language Models) قدرات تفوق البشر في حل المشكلات، يظل التساؤل قائمًا: هل يمكن لهذه النماذج أن تدرك الصعوبات المعرفية التي يواجهها المتعلمون؟

تقدم دراسة جديدة تحليلًا تجريبيًا واسع النطاق حول توافق صعوبات التعلم بين البشر والذكاء الاصطناعي، مع دراسة أكثر من 20 نموذجًا في مجالات متنوعة مثل المعرفة الطبية والاستدلال الرياضي.

وتظهر النتائج أن هناك عدم توافق منهجي؛ حيث إن زيادة حجم النموذج لا تؤدي بالضرورة إلى تحسين الدقة في تقدير الصعوبات. بدلاً من مواءمة التقديرات مع المدخلات البشرية، تتجه النماذج نحو توافق مشترك بين الآلات.

تُظهر الدراسة أيضًا أن الأداء العالي قد يُعيق من دقة تقدير الصعوبات، حيث تكافح النماذج لمحاكاة قيود القدرات لدى الطلاب، حتى عند تحفيزها بشكل صريح للتبني بمهارات معينة.

تستنتج هذه النتائج وجود نقص حاد في القدرة على التفكير الذاتي، مما يعني أن النماذج تفشل في تقدير حدودها الخاصة.

تسلط هذه الاكتشافات الضوء على التحديات الكبيرة في استخدام النماذج الحالية للتنبؤ الآلي بالصعوبات، مما يثير تساؤلات حول كيفية تطبيق الذكاء الاصطناعي بشكل فعال في مجالات التعليم والتقييم.