في السنوات الأخيرة، شهدنا تحولًا كبيرًا في أساليب تقييم الإجابات القصيرة الآلية (Automated Short Answer Scoring - ASAS)، حيث انتقلنا من نماذج متخصصة إلى نماذج لغوية ضخمة (Large Language Models - LLMs) تُستخدم في أوضاع معدودة الأمثلة. هذا التحول يستفيد من المعرفة الواسعة لهذه النماذج وسهولة نشرها، ولكن بالمقابل، قد يؤدي نقص البيانات المحددة بالمهام إلى تقليل دقة التقييم في مهام معقدة.

تركز الدراسة الجديدة على العلاقة بين درجة التكيف مع المهام المختلفة واتفاق تقييم الجودة. حيث تمت مقارنة ثلاثة نماذج LLM (GPT-5.2، GPT-4o، Claude Opus 4.5) في وضع قليل الأمثلة، إلى جانب نموذج مشفر مُعَد بدقة قائم على BERT، بالإضافة إلى خبير بشري في موضوع علم الأحياء. تم تحليل مئات ردود الطلاب وبناءً عليها تم وضع درجات بواسطة خبير في تعليم البيولوجيا.

أظهرت النتائج أن اتفاق التقييم البشري هو الأعلى والأكثر استقرارًا عبر طيف الجودة بالكامل. حيث تُظهر جميع النماذج الذكية أداءً جيدًا في الردود الصحيحة تمامًا والردود الخاطئة بالكامل، لكن أداؤها ينخفض بشكل كبير على الردود المتوسطة. هذه الزيادة في التدهور عند تقييم الردود المتوسطة تكون مرتبطة بتكيف المهام، حيث كانت الأكثر حدة في نماذج LLM التي استخدمت عددًا قليلًا من الأمثلة، وتقل مع زيادة البيانات المحددة للمهام، مع أداء أفضل للنماذج المُعَدَلة.

تسلط هذه النتائج الضوء على أهمية تحقيق العدالة في التقييم وفق جودة الإجابات، وخاصةً فيما يتعلق بالردود المتوسطة. إذ يمكن أن يؤدي هذا التدهور إلى تباين غير عادل في تقييم استجابات الطلاب الذين لا يزالون في مرحلة تطوير فهمهم. ما هي آرائكم حول هذه النتائج؟ شاركونا في التعليقات.