تعتبر معالجة الإشارات المرجعية (Coreference Resolution) واحدة من المهام الأساسية في معالجة اللغات الطبيعية (Natural Language Processing)، حيث تلعب دورًا حيويًا في مجموعة واسعة من التطبيقات، مثل الترجمة الآلية (Machine Translation) والإجابة عن الأسئلة وتلخيص الوثائق. على الرغم من أن هذه المهمة قد تم دراستها بشكل عميق في اللغة الإنجليزية، إلا أنه لم يُخصص نفس القدر من الاهتمام للغات الأخرى، خاصة تلك التي تعاني من نقص في الموارد.

لملء هذه الفجوة، يوجد اقتراح جديد يهدف إلى تطوير نظام معالجة إشارات مرجعية يعتمد على ترجمة آلية من الإنجليزية إلى لغات مستهدفة ذات موارد محدودة. من خلال هذه الطريقة، يمكن توليد أو توسيع بيانات التدريب، مما يزيد من فعالية الأنظمة المستخدمة.

للتحقق من جودة العينة المترجمة تلقائيًا، يتم استخدام تقنية الترجمة العكسية وتحليل التشابه باستخدام مقياس تشابه جيب الزاوية (Cosine Similarity) في الفضاء الكامن لنموذج BERT. تم دمج نتائج درجات التشابه في دالة الخسارة لتحديد وزن البيانات التدريبية بناءً على توافق دورتها.

أظهرت التجارب الموسعة على أربع لغات تعاني من نقص في الموارد أن هذه المنهجية تحقق فوائد أداء ملحوظة في معالجة الإشارات المرجعية. يتجاوز هذا النظام العقبات الناتجة عن نقص البيانات السابقة، مما يمهد الطريق لتحقيق نتائج دقيقة في لغات لم يكن لها سابقًا مجموعات بيانات موثوقة.