تمثل قواعد المعرفة (Knowledge Graphs) معلومات مُنظمة يتم استعراضها على شكل ثلاثيات (triples)، مما يساعد في تنظيم المعرفة العلائقية عبر مجالات متعددة. فكما أن المعلومات النصية تتراوح من كلمات وجمل إلى مستندات كاملة، يعتبر المعلومات في قواعد المعرفة قابلة للتفسير على مستويات متعددة كالكائنات والعلاقات والثلاثيات، وصولًا إلى الرسوم البيانية الفرعية وقواعد المعرفة الكاملة.

ومع ذلك، فإن الطرق المستخدمة حاليًا في تضمين قواعد المعرفة تركز بشكل كبير على الكائنات والعلاقات والثلاثيات، مما يترك جانب الدلالات على مستوى الرسم البياني معتمدًا على طرق مقارنة الرسوم البيانية التقليدية، التي تعتمد على الأنماط الهيكلية فقط، وهذا ما قد لا يضمن وجود تشابه دلالي حقيقي بين قواعد المعرفة.

تسلط هذه الدراسة الضوء على أهمية تقييم التشابه الدلالي بين الرسوم البيانية، وذلك من خلال تطوير مجموعة بيانات لمطابقة الدلالات (semantic matching dataset) بالاعتماد على تعديل وثائق النصوص، واستخراج قواعد المعرفة من الوثائق الأصلية والمعدلة، ونقل المطابقات المعروفة إلى أزواج قواعد المعرفة.

تتيح هذه الطريقة التحقيق في فعالية نهج شامل يعتمد على نماذج تضمين قواعد المعرفة، حيث تم تقديم وظيفتين للتقييم: “EmbPairSim”، والتي تستخدم أقصى تشابه بين الكائنات، و“AvgEmbSim”، التي تستخدم مركز وزن تكراري. أظهرت التجارب على مجموعتي بيانات WikiText-2 وCC-News أن “EmbPairSim” حققت تفوقًا يصل إلى 5.3 نقاط مئوية أعلى في مقياس MRR مقارنةً بـ Sentence-BERT مع استخدام عدد أقل بكثير من المعلمات.

تؤكد هذه النتائج على أن تمثيلات تضمين قواعد المعرفة يمكن أن تعمل كإشارات فعّالة ومضغوطة لتحديد التشابه الدلالي بين الرسوم البيانية، مما يتيح لنا فهمًا أفضل للبيانات المعقدة في العالم الرقمي. للمزيد من المعلومات، يمكنكم زيارة رابط المشروع على GitHub.

هل تعتقد أن هذه الطريقة ستغير من كيفية تعاملنا مع قواعد المعرفة في المستقبل؟ شاركونا آراءكم في التعليقات!