تعتبر المخطوطات العلمية من المصادر الأساسية لتقدم العلوم، لكن التعديلات الواقعية التي تطرأ على هذه المخطوطات يمكن أن تؤدي إلى تعقيدات غير متوقعة. لقد أظهرت الأبحاث أن التعديلات المحلية يمكن أن تخلق التزامات مراجعة غير محلية. فعلى سبيل المثال، عندما يتغير عدد الوثائق من 215 إلى 80، قد تصبح الادعاءات مثل 'مقياس متوسط' أو 'بضع مئات من العناصر' غير دقيقة، على الرغم من أنها لا تكرر الرقم المعدل.

في دراسة حديثة لمجموعة من الأوراق المرجعية على منصة arXiv، تم التوصل إلى أن 37.2٪ من الأوراق تحتوي على ادعاءات نوعية تعتمد على الحقائق، مما يشير إلى أن هذا النمط من الاعتماد شائع في هذا النوع الأدبي. وفي هذا السياق، تم تقديم EditPropBench، وهو معيار يستخدم لقياس مدى قدرة محرري نماذج اللغات الضخمة (Large Language Models) على نشر التعديلات الواقعية عبر الادعاءات التابعة في المخطوطات.

تتضمن كل عينة من EditPropBench مخطوطة اصطناعية بأسلوب تعلم الآلة (Machine Learning) ومعالجة اللغة الطبيعية (Natural Language Processing)، وتعديل مستهدف، ورسم بياني للحقائق مزود بتسميات على مستوى الجملة للأهداف المباشرة والتحديثات المطلوبة والنصوص غير المتعلقة التي يجب أن تبقى دون تغيير. نجح المعيار في تلخيص النجاح التراكمي من خلال مقياس يُعرف باسم الالتزام بتأثير التعديل (Edit-Ripple Adherence - ERA)، الذي يمثل النسبة المئوية للتحديثات المطلوبة التي تم تعديلها بشكل صحيح.

وأظهرت النتائج أن أنظمة تحرير نماذج اللغات الضخمة تشتمل على معدلات ERA تتراوح بين 0.148 و0.705 في أصعب الحالات، حيث تكون الادعاءات التابعة تستخدم صياغات ضمنية أو شكل حر بدلاً من تكرار القيمة المعدلة. لا تزال الأنظمة حتى القوية منها تفوت حوالي 30٪ من التحديثات المطلوبة، مما يبرز أن المراجعات العلمية الموثوقة تتطلب تفقداً واعٍ لسلسلة التحديثات.

إن EditPropBench تقدم رؤية ثاقبة حول كيفية معالجة نماذج الذكاء الاصطناعي لنتائج التعديلات الواقعية، لكنها تؤكد أيضاً على الحاجة إلى مراجعات أكثر دقة ووعي لعواقب التعديلات.