في عالم القانون، تعتبر النصوص الواضحة والصحيحة عنصرًا أساسيًا لا يمكن تجاهله. من هنا، يأتي دور الأدوات المتخصصة في تصحيح الأخطاء النحوية، التي تم تصميمها لمساعدة المحترفين في مجال القانون. ومع ذلك، فإن تطوير أداة فعالة يتطلب فهماً دقيقاً للأخطاء المحتملة في السياق القانوني، وهذا يعني ضرورة التدريب باستخدام بيانات قانونية واقعية.

ولكن، هناك نقص كبير في البيانات المعلنة يدويًا للغات مثل الرومانية، لا سيما في مجال تخصصي مثل مجال القانون. والنموذج الأكثر شيوعًا، المولّد للبيانات بشكل اصطناعي، يتطلب خبرة متعمقة في قواعد اللغة الرومانية.

في ورقة بحثية حديثة، تم تقديم قاعدة بيانات جديدة تُعرف باسم RoLegalGEC، وهي الأولى من نوعها في رصد وتصحيح الأخطاء النحوية في مجال القانون باللغة الرومانية. تحتوي هذه القاعدة على 350,000 مثال على الأخطاء النحوية في النصوص القانونية، مع توضيحات للأخطاء.

كما تمت دراسة مجموعة من نماذج الشبكات العصبية لتحويل هذه القاعدة إلى أداة قيمة للكشف عن الأخطاء وتصحيحها، بما في ذلك نماذج Transformers المتخصصة، ونماذج تسميات التسلسل للكشف، ومجموعة متنوعة من نماذج Transformers المحسّنة لتصحيح النصوص.

نعتبر أن هذه المجموعة من النماذج، جنبًا إلى جنب مع قاعدة بيانات RoLegalGEC الجديدة، ستساهم في إثراء قاعدة المعارف للبحوث المستقبلية في اللغة الرومانية.