في ظل التحديات المتزايدة التي تواجه الاتصال الآمن عبر الإنترنت، أصبحت ظاهرة خطاب الكراهية موضوعًا ملحًا يتطلب البحث الدؤوب عن حلول فعالة. وكون كشف الخطاب السام (Toxic Speech) يمثل تحديًا كبيرًا، يتمحور التركيز التقليدي حول النصوص فقط، مما يفوت الفرصة لاستخدام الإشارات باراللغوية (Paralinguistic Cues) مثل العواطف ونبرة الصوت وسرعة الحديث، التي تعتبر جوانب أساسية لفهم سمية الخطاب.

للتغلب على هذه التحديات، تم تقديم مجموعة بيانات جديدة تُدعى ToxiAlert-Bench، التي تحتوي على أكثر من 30,000 مقطع صوتي مُعنون بأكثر من سبعة فئات رئيسية من السمية وعشرين تصنيفًا دقيقًا. تعتبر هذه المجموعة فريدة من نوعها حيث تُميز بين المصادر النصية والجوانب باراللغوية، مما يسمح بتحليل شامل لخطاب الكراهية.

بالإضافة إلى ذلك، تم اقتراح نموذج شبكة عصبية مزدوجة الرؤوس بتقنية تدريب متعددة المراحل، مصممة خصيصًا لكشف الخطاب السام. يتضمن هذا النموذج رأسين تصنيفيين: أحدهما لتحديد مصدر الحساسية (نصّي أو باراللغوي)، والآخر لتصنيف النوع المحدد للسمية. تتضمن عملية التدريب تدريبًا مستقلًا للرؤوس، يليه تحسين مشترك لضمان تقليل التداخل بين المهام. وللتعامل مع عدم توازن البيانات، تم استخدام تقنيات أخذ عينات متوازنة وعوامل خسارة مرجحة.

تشير نتائج التجارب إلى أن الاستفادة من الميزات الباراللغوية تعزز الأداء بشكل ملحوظ. حيث أظهرت المنهجية الجديدة تحسنًا نسبيًا بنسبة 21.1% في درجة Macro-F1 و13.0% في الدقة مقارنةً بأقوى نماذج الأساس، مما يبرز فعالية الطريقة وملاءمتها التطبيقية في الواقع.