تعتبر التعليقات البشرية الأساس العملي للعديد من الأبحاث في معالجة اللغة الطبيعية (Natural Language Processing)، بدءًا من بناء قواعد البيانات وصولاً إلى تقييم النماذج. ومع ذلك، غالبًا ما تترك الأوراق البحثية غير واضحة حول من قام بإنتاج هذه التعليقات وكيف تمت السيطرة على عملية التعليق.

أجرت دراسة الحديثة أول تقييم شامل على نطاق واسع لممارسات توثيق التعليقات البشرية عبر الفعاليات الرئيسية في مجال NLP، حيث تم تسليط الضوء على التفاصيل التي يتم توثيقها، تلك التي تُهمل، وكيفية اختلاف التوثيق بحسب الزمن، الموضوع، المكان، والاستخدام المقصود للحكم البشري.

تم تقديم تصنيف موحد لممارسات توثيق التعليقات والتم التحقق من صحة نتائجه باستخدام نموذج مدعوم من التعلم الآلي، حيث تم مقارنته بمعايير ذهبية تم اعتمادها بشرياً من 41 ورقة بحثية و72 مهمة تعليق. أدت أفضل النماذج إلى توافق يتساوى تقريبًا مع الاتفاق البشري، مع حصولها على قيمة ألفا كريبدورف تبلغ 0.606 مقارنةً بـ0.585 بين المراجعين البشر.

تم بناء مجموعة بيانات جديدة بعنوان Annotated-llm تغطي الأوراق البحثية التي ظهرت في فعاليات ACL بين 2018-2025، حيث تم استخراج 2,667 مهمة تعليق من 1,603 ورقة. أظهرت البيانات أن العديد من الأوراق البحثية تُبلغ عن تفاصيل تشغيلية مثل استراتيجيات استقطاب المعلقين، خبرة المعلقين، وحجم التعليق، لكنها غالبًا ما تغفل عن تفاصيل ضرورية لتقييم صلاحية التعليقات مثل التدريب، إجادة اللغة، التعويض، الخصائص الاجتماعية والديموغرافية، قيم الحكم، وخاصة في دراسات تقييم النماذج.

تشير النتائج إلى أن ممارسات توثيق التعليقات في مجال NLP قد تحسنت على مر الزمن، لكن لا تزال هناك تفاوتات ملحوظة. توضح الدراسة ضرورة وضع إطار عمل قابل للتوسع وتوصيات الحد الأدنى حول كيفية جعل التعليق البشري أكثر موثوقية وقابلية للتكرار والفهم.