في عالم الذكاء الاصطناعي، لا يزال تحدي "الاستدلالات" يشكل عائقًا أمام نماذج اللغة الكبيرة (LLMs)، خصوصًا عند التعامل مع سياقات معقدة مثل أنظمة المؤسسة المعتمدة على المعلومات الأساسية (RAG) ونماذج الذكاء الاصطناعي الناشطة. في هذا الإطار، تركز دراسة جديدة على التحقق من دقة اكتشاف الاستدلالات في مهام التلخيص، حيث تم تحليل مجموعتي بيانات QAGS-C وSummEval من خلال مقارنة التقييمات الأصلية للمعايير مع التوقعات التي تم الحصول عليها من نماذج Gemini 2.5 Flash وGPT-5 Mini.

للتعامل مع الفجوات المنهجية بين تصنيفات البشر وأحكام نماذج اللغة، تمت إعادة تقييم جميع العينات المتعارضة من خلال عملية تحكيم بشري تمت بمساعدة اثنين من المحكمين الثقافيين. بعد هذه المراجعة، ارتفعت نسبة الاتفاق الثلاثي بين البشر وGPT وGemini بنسبة 6.38% لمجموعة QAGS-C و7.62% لمجموعة SummEval. في سياق مشابه، تحسن دقة النماذج حيث زادت دقة نموذج GPT بنسبة 4.25% في مجموعة QAGS-C و2.34% في مجموعة SummEval، بينما حقق Gemini زيادة بلغت 8.51% و3.80% على التوالي.

وأظهرت البيانات أن المحكمين غالبًا ما اتجهوا لاستنتاجات النماذج بدلاً من التقييمات البشرية الأصلية، خاصة عندما قدمت النماذج مبررات واضحة. تراوحت نسبة اتفاق المحكمين البشريين بين 83% و87%. تشير هذه النتائج إلى أن التقييمات الأحادية قد لا تكون كافية للمهام المحتملة للغموض، وأن إعادة التقييم المعزز بالنماذج يوفر معايير أكثر موثوقية.