يعتبر تصنيف خطاب الكراهية من المهام الحيوية، خاصةً في عالم وسائل التواصل الاجتماعي الذي ينتشر فيه المحتوى الضار بسرعة. تكمن الصعوبة في اكتشاف وتصنيف خطاب الكراهية في طبيعته الذاتية، مما يؤدي إلى تباين كبير في آراء الم annotators (مُعِدّي البيانات). حيث يجد هؤلاء صعوبة في تحديد محتوى خطاب الكراهية على نحو دقيق، خصوصًا في الحالات الحدودية.
تقوم الأساليب التقليدية إما بالتخلص من العينات التي لا تتفق عليها الآراء أو فرض 'معيار ذهبي' من خلال التحكيم الخبير، مما يهمل المعلومات القيمة حول عدم اليقين وتنوع وجهات نظر البشر. لذلك، قمنا بمراجعة هذا التحدي الذي يتم غالبًا تجاهله في تصنيف خطاب الكراهية، لنقوم بتقييم عدة طرق تجميعية مثل التصويت بالأغلبية، والاستراتيجيات الترتيبية (الحد الأدنى، الحد الأقصى، والوسط)، ونحلل تأثيرها عبر مهام التصنيف الثنائية، وتصنيف أربعتة فئات، وستة فئات.
علاوة على ذلك، نحن نستفيد من درجات قوة خطاب الكراهية كما يراها الم annotators لاستكشاف أساليب النموذج القائمة على الانحدار والنماذج الهجينة. وقد أثبتت النتائج أن تصفية العينات التي لا يتفق عليها تؤدي إلى نتائج متفائلة بشكل زائد، بينما توفر درجات القوة المُدركة إشارة مكملة تعزز أداء التصنيف.
أخيرًا، نحقق نتائج جديدة في تصنيف خطاب الكراهية في التغريدات التركية، ونعرض أن تباين آراء الم annotators، عند نمذجته بشكل صحيح، يمكن أن يكون موردًا قيمًا لبناء أنظمة أكثر قوة وموثوقية.
كيف نواجه تباين الآراء في تصنيف خطاب الكراهية؟
تطورات جديدة في تصنيف خطاب الكراهية تكشف عن أهمية فهم تباين آراء الم annotators. الدراسة تستعرض طرق مبتكرة لتحسين عملية التصنيف وتقديم نتائج دقيقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
