في ظل النمو المتسارع للذكاء الاصطناعي، يواجه نموذج استخراج الكيانات والعلاقات المشتركة (Joint Entity and Relation Extraction - JERE) تحديات كبيرة تتعلق بالعمومية الضعيفة نتيجة البيانات التدريبية ذات الجودة المتدنية. تعتبر استراتيجية زيادة البيانات (Data Augmentation) واحدة من الحلول المنتشرة لتحسين عمومية النماذج عبر مجالات مختلفة.

لكن طريقة الزيادة المتبعة غالبًا ما تغفل عن أهمية صلة النص، مما قد يؤدي إلى حدوث اضطرابات في البنى الدلالية والاعتمادات، مما يعقّد عملية إنتاج بيانات معززة فعالة.

ولكن، لقد جاء الحل من خلال اقتراح طريقة جديدة تُعرف بإسم زيادة البيانات الدلالية المنظمة (Structured Semantic Data Augmentation - SSDAU)، والتي تهدف إلى الحفاظ على الهيكل الدلالي للنص أثناء عملية الزيادة.

تقوم SSDAU بتقسيم النص استنادًا إلى تسميات الكيانات، وتستخدم مشفر لالتقاط الميزات الدلالية للكيانات من خلال الوعي بالسياق. ومن خلال إعادة هيكلة الكيانات دلاليًا، يمكن أن تولد بيانات معززة بشكل فاعل.

لتمييز الكيانات المتشابهة دلاليًا، تدمج SSDAU بين الم embeddings السياقية ودرجات التشابه التقليدية. وللتقليل من غموض الموضوع وفقدان المعلومات، يتم تطبيق نموذج BERTTopic لتنقية الموضوعات غير ذات الصلة، مما يضمن الاتساق الموضوعي.

في التجارب، تم تقييم SSDAU باستخدام مجموعات بيانات مع أنواع مختلفة من التعليقات، وقارنت أدائها على خمسة نماذج JERE ممثلة ضد سبعة معايير شعبية للزيادة البيانات. أظهرت التجارب أن SSDAU تنتج بيانات دلالية متسقة مع متانة فائقة ضد الغموض، حيث أفادت النتائج بتقليص الفارق في دقة F1 بنسبة 8.26% مقارنةً بـ31.91% للأساليب التقليدية.

بهذه الطريقة، تثبت SSDAU أنها تتفوق على كافة الأساليب الحالية عبر جميع المقاييس، مما يمهد الطريق لمزيد من الابتكارات في مجال الذكاء الاصطناعي.