في ظل انتشار التحولات الاجتماعية وقضايا حقوق الإنسان، يبرز تساؤل حيوي حول كيفية التعامل مع الشتائم التي تهدف إلى إهانة مجتمعات معينة. يطرح البحث الجديد إطار عمل مبتكر متعدد المراحل للكشف عن هذه الشتائم في الحوار الاجتماعي المتعدد اللغات، وخصوصًا تلك المتعلقة بمجتمعات LGBTQ+، من خلال تحليل التغريدات باللغات الإنجليزية، الإسبانية، والإيطالية.

يواجه الباحثون العديد من التحديات المنهجية: ندرة البيانات، عدم توازن الفئات، واختلاف التعبير عن المشاعر عبر اللغات. وعليه، تم تطوير استراتيجية تتضمن اختيار نماذج مدفوعة بالبيانات من خلال التحقق المتقاطع (cross-validation)، وزيادة بيانات تحافظ على المعنى عن طريق الترجمة العكسية (back-translation)، التعلم الانتقائي (inductive transfer learning) مع تقليل العينة على مستوى الحلقات، وحقن المعرفة الخاصة بالمجال عبر نماذج اللغة المُخفاة (masked language modeling).

خضعت ثمانية نماذج ترميز متعددة اللغات (multilingual embedding models) للاختبار المنهجي، حيث تم اختيار نموذج XLM-RoBERTa كنموذج أساسي بناءً على متوسط درجة F1.

من خلال استخدام زيادة البيانات عبر الترجمة العكسية لنموذج GPT-4o-mini، تم مضاعفة حجم مجموعة التدريب 3 مرات مع الحفاظ على المحتوى الدلالي ونسب توزيع الفئات. يقدم الإطار أربع عمليات نهائية لأغراض التقييم، حيث تشمل RUN 1 التعلم الانتقائي مع الزيادة وتقليل العينة، وRUN 2 يتضمن مسبق التدريب باستخدام نماذج اللغة المُخفاة، بينما تستند RUN 3 وRUN 4 إلى تحسينات على التوقعات السابقة عبر عتبات القرار الخاصة باللغة.

تشير النتائج إلى أن الحدود المثلى للقرارات تختلف بشكل كبير بين اللغات، مما يعكس الاختلافات في توزيع درجات الثقة للنموذج واستخدام اللغة المتجددة. توفر طريقة تحسين العتبات حدود أداء محسّنة بنسبة 2-5% بدون الحاجة إلى إعادة تدريب النموذج. كل هذه الطرق متاحة للتكرار، مما يتيح للمهتمين بالموضوع استخدام الكود والإعدادات التجريبية من خلال الرابط المتوفر في GitHub.