في عصر الذكاء الاصطناعي، تنكشف أمامنا الكثير من المفاجآت المثيرة في مجال نماذج اللغة الكبيرة (Large Language Models). في دراسة جديدة، تم التركيز على مدى تأثير الثبات الداخلي (self-consistency) وجهود التفكير (reasoning effort) على دقة التقييم الآلي.

تمت دراسة 900 محادثة طلابية في مادة الرياضيات لطلاب المدارس الثانوية، وتم مقارنتها بمعايير التقييم البشري. كانت النتائج مذهلة؛ إذ أظهرت التجارب أن مبدأ التصويت بالأغلبية داخل النماذج كان أكثر فعالية في تحسين دقة التقييم بمقارنة عدة نماذج بدلاً من الاعتماد على التجميع التقليدي.

أظهرت النماذج مثل Gemini 3.1 Pro Preview التي تقدم أعلى دقة ولكن بتكاليف مرتفعة، بينما موديلات GPT-5.4 Nano وMini، التي كانت تأتي دون جهود تفكير، برزت كأفضل خيار من حيث التوازن بين التكلفة والأداء.

الأبحاث تشير أيضاً إلى أن استخدام تقنيات عينة الحرارة (Temperature Sampling) كان له تأثير إيجابي واضح على دقة التقييم مقارنة بالمكالمات الحتمية، بينما لم يقدم زيادة حجم التجميع تحسناً يذكر.

باختصار، يبدو أن هناك مجالاً كبيراً للاستفادة من تقنيات التفكير واستراتيجيات اختيار النماذج في تقييم الأداء الأكاديمي باستخدام الذكاء الاصطناعي. فكيف يمكن أن نطور هذه الاستراتيجيات لتحقيق أفضل النتائج في المستقبل؟