تواجه اللغة الكشميرية، التي تُكتب بنظام Perso-Arabic المعدل، تحديات كبيرة عندما يتعلق الأمر بنقل النصوص رقمياً. غالباً ما تُهمل علامات التشكيل، مما يسبب غموضاً ويعرقل تطبيقات معالجة اللغة الطبيعية (NLP). في هذا السياق، يظهر نموذج Koshur Diacritizer كحل مبتكر يعيد تشكيل النصوص الكشميرية بدقة.

يستند Koshur Diacritizer إلى نموذج ByT5-small الذي يعمل على مستوى البايت (byte-level)، حيث يتم تطويره لاستعادة علامات التشكيل المفقودة من خلال معالجة عميقة وفعالة. للمساعدة في تحقيق هذه المهمة، تم إصدار مجموعة بيانات عامة تحتوي على 23,700 زوج من الجمل الكشميرية غير المشكلة والمشكلة.

يثبت هذا الإطار قدرته من خلال دمج تقنيات متعددة مثل تطبيع النص القائم على الكتابة، والتحقق من المحاذاة، واستنتاج يحفظ الهيكل الأساسي للجمل. هذه الممارسات تضمن استعادة موثوقة للنص، مع الحفاظ على تسلسل الحروف الأصلية.

أظهرت التجارب على مجموعة اختبار مستقلة تحقيق كفاءة ملحوظة، حيث بلغت قيمة معدل استعادة العلامات 0.2012، ومعدل الأخطاء في الكلمات 0.2159. ولتأكيد فعالية النموذج، قام خبير لغوي كشميري بإجراء تقييم يدوي، أسفر عن دقة متوسطة تقدر بـ 77.5%.

الأهم من ذلك، تم طرح مجموعة البيانات، النموذج، والشيفرة المصدرية للعامة، مما يوفر قاعدة قابلة للتكرار لأبحاث استعادة علامات التشكيل في اللغة الكشميرية وأبحاث اللغات ذات الموارد المحدودة بشكل عام. ومع هذه المبادرة، تتجه الأنظار نحو مستقبل أكثر إشراقاً للغات الأقل شهرة في العالم الرقمي.