تعد تلخيص الوثائق الطويلة مجالًا صعبًا في مجال معالجة اللغة الطبيعية، خاصة عند تقييم التناسق الواقعي (Factual Consistency) للملخصات. تكمن المشكلة الرئيسية في أن المقاييس التقليدية المستخدمة في تلخيص النصوص القصيرة لا تتماشى مع متطلبات الوثائق الطويلة، حيث تواجه صعوبات بسبب حد طول الإدخال والتبعات البعيدة.

في دراسة جديدة، تم تقييم موثوقية ستة مقاييس شائعة لا تعتمد على المراجع، والتي تم اقتراحها أصلاً لملخصات النصوص القصيرة، في سياق الوثائق الطويلة. وقد تم اختبار صلابة تلك المقاييس من خلال تطبيق سبعة أنواع من التغييرات المدروسة على الملخصات، مثل إعادة الصياغة، والتبسيط، واستبدال المرادفات، والنفي المنطقي المكافئ، وتقليل المفردات، والضغط، وإدخال نص المصدر. كما تم تحليل حساسيتها وفقًا لسياق الاسترجاع وكثافة معلومات الادعاءات.

أظهرت النتائج عبر ثلاثة مجموعات بيانات طويلة تشمل مجالات الخيال العلمي والقانون والعلوم أن المقاييس الحالية لملخصات النصوص القصيرة تعطي نتائج غير متسقة للملخصات ذات المعنى المتساوي وتظهر تراجعًا في الموثوقية عند التعامل مع ادعاءات غنية بالمعلومات، تشابه محتواها الكثير من جوانب الوثيقة الأصلية. رغم أن توسيع سياق الاسترجاع يمكن أن يحسن الاستقرار في بعض المجالات، إلا أنه لا توجد أي مقياس يحتفظ بالتوافق الواقعي بشكل ثابت تحت ظروف السياق الطويل.

تسلط النتائج الضوء على اتجاهات ملموسة لتحسين تقييم التناسق الواقعي، بما في ذلك التفكير عبر عدة مراحل، والمعايرة الواعية بالسياق، والتدريب على التحولات التي تحافظ على المعنى لتعزيز المتانة في تلخيص الوثائق الطويلة. تم نشر جميع الأكواد والبيانات المعدلة والسكربتات اللازمة لإعادة إنتاج النتائج على [https://github.com/zainmujahid/metricEval-longSum](https://github.com/zainmujahid/metricEval-longSum).