في عصر يتوسع فيه استخدام الذكاء الاصطناعي في شتى المجالات، أصبح تقييم أداء الطلاب من خلال النماذج اللغوية الصغيرة تحدياً يستحق الدراسة. حيث ظهرت دراسة جديدة تهتم بكيفية قدرة النماذج اللغوية الصغيرة على معرفة متى تكون إجاباتها خاطئة، وذلك باستخدام نظام تقييم يعتمد على الثقة الرقمية.

تسعى الأنظمة الآلية لتقييم أعمال الطلاب إلى تحقيق توازن بين الدقة والتكلفة والزمن المطلوب. تستند الأنظمة المعروفة باسم "cascade" إلى فكرة أن النماذج اللغوية الأصغر تعالج المهام الأسهل، بينما تحيل المهام الأكثر تعقيدًا إلى نماذج أكبر. لكن التحدي الرئيسي يكمن في تحديد الحالات التي يجب تصعيدها.

تتسم الدراسة بتركيزها على "الثقة اللفظية"، حيث يُطلب من نموذج اللغة أن يوضح درجة ثقته في توقعاته. وباستخدام 2,100 قرار تم تقييمها من قبل خبراء في محادثات الطلاب والذكاء الاصطناعي حول الرياضيات، تم تقييم مدى فعالية الأنظمة.

أظهرت النتائج أن:
1. تباين قدرة النماذج الصغيرة على قياس الثقة بشكل ملحوظ، حيث حققت أفضل الأنظمة نسبة دقة (AUROC) تصل إلى 0.857، بينما كانت أدنى نسبة قريبة من الانحلال.
2. تعكس الثقة الرقمية صعوبة التقييم لدى البشر، حيث يكون لدى النماذج اللغوية ثقة أقل في الحالات التي تتعارض فيها آراء معيدي التقييم.
3. تمكنت أفضل الأنظمة المتعددة المستويات من الاقتراب من دقة النماذج الكبيرة بنسبة دقة (kappa) تبلغ 0.802 مقابل 0.819، مع تقليل التكلفة بنسبة 76% وتأخير الزمن بنسبة 61%.

تشير الدراسة إلى أن قدرة النماذج الصغيرة على التفريق بين الثقة تعد عنق الزجاجة: فقد عرضت النماذج التي تتمتع بتفاوت ملحوظ في الثقة أنظمة متصلة لا تتسبب في أي فقدان دقيق إحصائي، بينما لم تتمكن النماذج الأخرى ذات الثقة القريبة من الانحلال من تقليص الفجوة في الدقة، بغض النظر عن العتبة المستخدمة.

ببساطة، النماذج الصغيرة التي تتمتع بقدرة جيدة على قياس الثقة تتيح للممارسين تحقيق توازن بين التكلفة والدقة، في حين أن تلك التي تفتقر إلى هذه القدرة لا تتمكن من ذلك.