في عالم التعليم الحاسوبي، تعد القدرة على تصحيح امتحانات سطر الأوامر (command-line examinations) بشكل موثوق من التحديات الكبيرة. ومع تزايد أعداد الطلاب، يصبح التصحيح اليدوي صعبًا، كما أن الأنظمة المبنية على قواعد لا تستطيع التعامل مع الدرجات الجزئية أو الحلول المكافئة. لذا، قام الباحثون بدراسة استخدام أربع نماذج لغوية ضخمة (Large Language Models) وهي: GPT، Claude Opus، Gemini، وGLM لتقييم قدراتها على محاكاة حكم الخبراء في تصحيح ردود قصيرة حول لينيكس/باش.

اعتمدت الدراسة على تصنيف معرفي رباعي المستويات يجمع بين تعقيد التفكير وتأثير التشغيل، حيث تتراوح المراحل من استرجاع المعلومات (L1) إلى إدارة النظام المتقدمة (L4). تم اختبار النماذج مع نوعين من المحفزات: قاعدة بيانات بسيطة ونسخة معززة بالمعايير، على 1200 استجابة حقيقية من طلاب هندسة الكمبيوتر السنة الثانية، وتم تصحيحها بشكل مستقل من قبل ثلاثة مدرسين خبراء.

حققت نتيجة نموذج Gemini 3.0 Pro مع التوجيه حسب القواعد أعلى توافق بين الذكاء الاصطناعي والبشر (ICC(3,1) = 0.888، MAE = 0.10). ومع زيادة تعقيد الأسئلة، انخفض هذا التوافق بشكل ملحوظ.

تبين هذه النتائج أن تعقيد السؤال يعد مؤشرًا موثوقًا على مدى صعوبة تصحيح النماذج بدقة، كما توفر إطار عمل مصنفي لتحديد أي الأسئلة مناسبة للتصحيح بمساعدة الذكاء الاصطناعي وأيها يحتاج إلى مراجعة بشرية، مما يقدم بروتوكولات تقييم قابلة للنقل ونماذج تحفيزية.