في خطوة جديدة تعزز من أبحاث الذكاء الاصطناعي، تم تقديم قاعدة بيانات SiNFluD، وهي بنية بيانات مبتكرة تمحورت حول تصنيف اللغة المجازية (figurative language) في الأدب السندهي. تمثل هذه المجموعة ثمرة جهود لجمع نصوص أدبية ومنشورات عبر المدونات ووسائل التواصل الاجتماعي، حيث تم إعدادها بعناية لتكون جاهزة للتعليق والتصنيف.

اجتمع فريق من اثنين من المعلقين الأصليين للغة السندية ليقوموا بعملية تصنيف البيانات باستخدام أداة التعليق النصي Doccano، حيث وصلوا إلى توافق بين المعلقين بنسبة 0.81، مما يعكس دقة وجودة العمل المنجز.

عقب ذلك، تم إعداد نتائج أساسية باستخدام تقنيات التحقق المتقاطع (cross-validation) بخمسة وعشرة طيات. وقد تم تقييم نماذج متعددة مثل mBERT وXLM-RoBERTa، إلى جانب نموذج XLM-RoBERTa-XL. فيما تم تطبيق تقنية SetFit دقيقة للنماذج ذات الأداء الجيد في تعلم العبارات.

من خلال هذه التجربة، استطاع نموذج XLM-RoBERTa-XL المدرب مسبقاً تحقيق أفضل أداء بين جميع النماذج المختبرة، مما يؤكد على قوة التقنيات الحديثة في تحليل وتصنيف النصوص الأدبية.

إن هذا المشروع لا يمثل مجرد خطوة في مسيرة الأبحاث الأكاديمية، بل هو بوابة جديدة لفهم الثقافة واللغة السنديه بطرق فريدة. نحن متشوقون لرؤية كيف ستسهم هذه القاعدة في إثراء الدراسات المستقبلية. ما رأيكم في دور الذكاء الاصطناعي في دعم اللغات الأقل شهرة؟ شاركونا آرائكم!