تقييمoutputs المفتوحة لنماذج اللغة الكبيرة (LLMs) يعد من التحديات الكبرى في مجال الذكاء الاصطناعي. فعلى الرغم من اعتماد المقاييس الحالية على دقة الإجابات النهائية أو الإحصائيات السطحية، إلا أنها تغفل عملية التفكير ذاتها.
لذلك، ظهر مقياس TRACE (تقييم التفكير القائم على الحجة باستخدام العناصر البناءة)، فنحن لا نكتفي بتقييم النتائج، بل نتعمق في كيفية بناء الحجج. TRACE يجمع بين نظرية الحجة لتولمين (Toulmin) وإطار التفكير ما وراء المعرفي لفلڤل (Flavell) لتحليل بنية التفكير.
أجريت تجارب على 26,300 عينة من الأسئلة عبر 7 نماذج تفكير مختلفة، وأظهرت النتائج ارتباطًا قويًا مع دقة المقياس الأساسي (r=0.74). بالإضافة إلى ذلك، يُظهر TRACE فعالية في كونه إشارات تعزيزية لتعلم الآلة، متفوقًا بذلك على المقاييس التقليدية التي تعتمد فقط على الدقة.
تشير النتائج إلى أن التفكير المنطقي السليم يؤدي إلى إجابات ذات جودة أعلى، مما يجعل TRACE مقياسًا مكملاً لتقييم ناتج النماذج المفتوحة. الرمز البرمجي متاح على GitHub.
TRACE: تقييم عملية التفكير المنطقي في نماذج اللغة الكبيرة بطريقة جديدة!
تقديم TRACE، مقياس مبتكر لتحليل عمليات التفكير في نماذج اللغة الكبيرة (LLMs). يكشف النقاب عن كيفية بناء الحجج لتحسين جودة الإجابات المفتوحة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
