تواجه لغات الرومانسية الوسيطة تحديات كبيرة فيما يتعلق بتصنيف أجزاء الكلام (POS)، ويرجع ذلك إلى التباينات الإملائية، والتعقيد الصرفي، والموارد المحدودة المannotated. في هذه الدراسة، نقدم تقييمًا تجريبيًا منهجيًا لاستخدام نماذج اللغات الضخمة (LLMs) في تصنيف أجزاء الكلام عبر ثلاث لهجات وساطة: الأوكسيتانية الوسطى، الكتالونية الوسطى، والفرنسية الوسطى.
تمت مقارنة المتخصصين التقليديين المعتمدين على القواعد والإحصائيات مع نماذج LLMs المفتوحة المصدر من خلال طرق مختلفة مثل المطالبات بدون تدريب (zero-shot) والمطالبات القليلة التدريب (few-shot)، بالإضافة إلى التحسينات أحادية اللغة (monolingual fine-tuning) وتعلم النقل بين اللغات (cross-lingual transfer learning).
أظهرت التجارب على مجموعات البيانات القائمة على التاريخ أن الأساليب المعتمدة على LLMs تتفوق باستمرار على الوسائل التقليدية، حيث حققت تحسينات كبيرة من خلال الضبط الدقيق والتدريب متعدد اللغات. على وجه الخصوص، تدعم تقنيات تعلم النقل بين اللغات اللهجات التي تعاني من نقص الموارد، في حين أن التدريب الثنائي المستهدف قد يتجاوز التكوينات متعددة اللغات الأوسع لتلبية احتياجات لغات معينة.
تؤكد النتائج على أهمية القرب اللغوي وخصائص مجموعة البيانات عند تصميم استراتيجيات النقل لمعالجة النصوص التاريخية. كما تقدم هذه الدراسـة رؤى تجريبية حول تطبيق الأساليب العصبية الحديثة في معالجة النصوص التاريخية، وتوفر توجيهات عملية لنشر خطوط الأنابيب المعتمدة على LLMs في أبحاث العلوم الإنسانية الرقمية. جميع التعليمات البرمجية والنماذج ومجموعات البيانات المعالجة متاحة لضمان قابلية التكرار.
من المعالم التقليدية إلى نماذج الذكاء الاصطناعي: دراسة مقارنة في تصنيف أجزاء الكلام للغات الرومانسية الوسيطة
تقدم الدراسة الحالية تحليلًا مثيرًا لتقنيات تصنيف أجزاء الكلام (POS) باستخدام نماذج الذكاء الاصطناعي. من خلال مقارنة الأساليب التقليدية مع نماذج اللغات الضخمة (LLMs)، تثبت النتائج تفوق الأخيرة في معالجة نصوص اللغات الرومانسية الوسيطة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
