تواجه اللغة الكشميرية، التي تُكتب بنظام Perso-Arabic المعدل، تحديات كبيرة عندما يتعلق الأمر بنقل النصوص رقمياً. غالباً ما تُهمل علامات التشكيل، مما يسبب غموضاً ويعرقل تطبيقات معالجة اللغة الطبيعية (NLP). في هذا السياق، يظهر نموذج Koshur Diacritizer كحل مبتكر يعيد تشكيل النصوص الكشميرية بدقة.
يستند Koshur Diacritizer إلى نموذج ByT5-small الذي يعمل على مستوى البايت (byte-level)، حيث يتم تطويره لاستعادة علامات التشكيل المفقودة من خلال معالجة عميقة وفعالة. للمساعدة في تحقيق هذه المهمة، تم إصدار مجموعة بيانات عامة تحتوي على 23,700 زوج من الجمل الكشميرية غير المشكلة والمشكلة.
يثبت هذا الإطار قدرته من خلال دمج تقنيات متعددة مثل تطبيع النص القائم على الكتابة، والتحقق من المحاذاة، واستنتاج يحفظ الهيكل الأساسي للجمل. هذه الممارسات تضمن استعادة موثوقة للنص، مع الحفاظ على تسلسل الحروف الأصلية.
أظهرت التجارب على مجموعة اختبار مستقلة تحقيق كفاءة ملحوظة، حيث بلغت قيمة معدل استعادة العلامات 0.2012، ومعدل الأخطاء في الكلمات 0.2159. ولتأكيد فعالية النموذج، قام خبير لغوي كشميري بإجراء تقييم يدوي، أسفر عن دقة متوسطة تقدر بـ 77.5%.
الأهم من ذلك، تم طرح مجموعة البيانات، النموذج، والشيفرة المصدرية للعامة، مما يوفر قاعدة قابلة للتكرار لأبحاث استعادة علامات التشكيل في اللغة الكشميرية وأبحاث اللغات ذات الموارد المحدودة بشكل عام. ومع هذه المبادرة، تتجه الأنظار نحو مستقبل أكثر إشراقاً للغات الأقل شهرة في العالم الرقمي.
Koshur Diacritizer: الابتكار الجديد في استعادة تشكيل الكلمات الكشميرية!
تمثل تقنية Koshur Diacritizer إنجازاً كبيراً في مجال معالجة اللغة الطبيعية، حيث تسهم في استعادة علامات التشكيل في اللغة الكشميرية بدقة عالية. هذه الأداة الجديدة تقدم دعماً كبيراً للبقاء على اتصال مع التراث اللغوي وتعزيز الكفاءة في التطبيقات الرقمية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
