تُعتبر عملية تقسيم المعاني (Semantic Segmentation) جزءًا أساسيًا من تحليل الخطاب، ولكن النماذج الموجودة حتى الآن تم تطويرها وتقييمها بشكل رئيسي على النصوص المكتوبة ذات الموارد العالية، مما يحد من فعاليتها في التعامل مع اللهجات العربية الفقيرة. اللهجات العربية تمتاز بتركيبها غير الرسمي، والدمج بين اللغات (code-switching)، وهيكل الخطاب الضعيف التحديد، مما يُشكل تحديات كبيرة أمام الطرق التقليدية للتقسيم.

في بحث حديث، قام الباحثون بتقديم معيار جديد متعدد الأنواع يضم أكثر من 1000 عينة لتقسيم المعاني في المحادثات العربية، مع التركيز على الخطاب اللهجي. هذا المعيار يغطي مجموعة متنوعة من المحادثات الهاتفية، والبودكاست ذات الدمج اللغوي، وأخبار البث، والحوار التعبيري من الروايات. وقد تم توثيق هذا المعيار وتصديقه من قبل مُحّررين ناطقين باللغة العربية.

عبر استخدام هذا المعيار، أظهرت النتائج أن نماذج التقسيم التي كانت تعمل بشكل جيد على الأخبار باللغة العربية الفصحى تعاني من تدهور في أداءها عندما يتعلق الأمر بالكلام المكتوب باللهجات. بالإضافة إلى ذلك، اقترح الباحثون نموذج تقسيم يركز على الاتساق الدلالي المحلي والقدرة على التعامل مع انقطاعات الخطاب، مما يمنحه أداءً أقوى من النماذج الأساسية في غير أخبار اللهجات.

إن هذه الجهود تمثل خطوة مهمة نحو تحسين فهم الخطاب باللهجات العربية، وقد تعمم في لغات محكية منخفضة الموارد أخرى. نحن في انتظار تطورات مستقبلية قد تسهم في تعزيز التفاعل والتواصل بين الثقافات.