تعتبر عملية تعرف الكيانات (Named Entity Recognition) في النصوص التاريخية واحدة من أكثر التحديات تعقيدًا، حيث تؤثر التغيرات الزمنية على شكل الكيانات وأهميتها. ومع تقدم نماذج اللغة (Language Models) في العديد من مهام معالجة اللغة الطبيعية (NLP)، لا تزال قدرتها على التعامل مع التغيرات الزمنية، خاصة في السياقات الدياكرونية، محدودة أو مشكوك فيها.

في هذه الدراسة، أجرينا بحثًا ممنهجًا حول كيفية إدماج البيانات الزمنية بنجاح في نماذج تعرف الكيانات، مستخدمين مجموعة من استراتيجيات الدمج الخفيفة. حيث قمنا بتجربة تمثيلات زمنية مطلقة ونسبية، تم تضمينها في معمارية (Transformer) عبر استراتيجيات دمج مبكرة أو متأخرة، مثل الاندماج المتقاطع (Cross-Attention) والأدوات المساعدة (Adapters) والتراص (Concatenation).

تشير نتائج تجاربنا على مجموعات بيانات تاريخية فرنسية وألمانية، إلى أن استراتيجيات الدمج المتأخر تعطي أداءً أكثر قوة وقابلية للتعميم عبر الزمن، خاصة في الفترات المبكرة والملغومة بالضجيج. يمكن أن تساهم هذه الاستراتيجيات المبتكرة في تعزيز دقة العمليات البحثية والمساعدة في توضيح الأحداث التاريخية المهمة.

لذا، ما رأيكم في تأثير الزمن على دقة التعرف على الكيانات؟ ندعوكم لمشاركة آرائكم في التعليقات.