تقييمoutputs المفتوحة لنماذج اللغة الكبيرة (LLMs) يعد من التحديات الكبرى في مجال الذكاء الاصطناعي. فعلى الرغم من اعتماد المقاييس الحالية على دقة الإجابات النهائية أو الإحصائيات السطحية، إلا أنها تغفل عملية التفكير ذاتها.

لذلك، ظهر مقياس TRACE (تقييم التفكير القائم على الحجة باستخدام العناصر البناءة)، فنحن لا نكتفي بتقييم النتائج، بل نتعمق في كيفية بناء الحجج. TRACE يجمع بين نظرية الحجة لتولمين (Toulmin) وإطار التفكير ما وراء المعرفي لفلڤل (Flavell) لتحليل بنية التفكير.

أجريت تجارب على 26,300 عينة من الأسئلة عبر 7 نماذج تفكير مختلفة، وأظهرت النتائج ارتباطًا قويًا مع دقة المقياس الأساسي (r=0.74). بالإضافة إلى ذلك، يُظهر TRACE فعالية في كونه إشارات تعزيزية لتعلم الآلة، متفوقًا بذلك على المقاييس التقليدية التي تعتمد فقط على الدقة.

تشير النتائج إلى أن التفكير المنطقي السليم يؤدي إلى إجابات ذات جودة أعلى، مما يجعل TRACE مقياسًا مكملاً لتقييم ناتج النماذج المفتوحة. الرمز البرمجي متاح على GitHub.