تواجه لغات الرومانسية الوسيطة تحديات كبيرة فيما يتعلق بتصنيف أجزاء الكلام (POS)، ويرجع ذلك إلى التباينات الإملائية، والتعقيد الصرفي، والموارد المحدودة المannotated. في هذه الدراسة، نقدم تقييمًا تجريبيًا منهجيًا لاستخدام نماذج اللغات الضخمة (LLMs) في تصنيف أجزاء الكلام عبر ثلاث لهجات وساطة: الأوكسيتانية الوسطى، الكتالونية الوسطى، والفرنسية الوسطى.

تمت مقارنة المتخصصين التقليديين المعتمدين على القواعد والإحصائيات مع نماذج LLMs المفتوحة المصدر من خلال طرق مختلفة مثل المطالبات بدون تدريب (zero-shot) والمطالبات القليلة التدريب (few-shot)، بالإضافة إلى التحسينات أحادية اللغة (monolingual fine-tuning) وتعلم النقل بين اللغات (cross-lingual transfer learning).

أظهرت التجارب على مجموعات البيانات القائمة على التاريخ أن الأساليب المعتمدة على LLMs تتفوق باستمرار على الوسائل التقليدية، حيث حققت تحسينات كبيرة من خلال الضبط الدقيق والتدريب متعدد اللغات. على وجه الخصوص، تدعم تقنيات تعلم النقل بين اللغات اللهجات التي تعاني من نقص الموارد، في حين أن التدريب الثنائي المستهدف قد يتجاوز التكوينات متعددة اللغات الأوسع لتلبية احتياجات لغات معينة.

تؤكد النتائج على أهمية القرب اللغوي وخصائص مجموعة البيانات عند تصميم استراتيجيات النقل لمعالجة النصوص التاريخية. كما تقدم هذه الدراسـة رؤى تجريبية حول تطبيق الأساليب العصبية الحديثة في معالجة النصوص التاريخية، وتوفر توجيهات عملية لنشر خطوط الأنابيب المعتمدة على LLMs في أبحاث العلوم الإنسانية الرقمية. جميع التعليمات البرمجية والنماذج ومجموعات البيانات المعالجة متاحة لضمان قابلية التكرار.