في عصر يتسارع فيه انتشار مقاطع الفيديو عبر الشبكات الاجتماعية، أصبحت خطابات الكراهية تهديداً متزايداً يستهدف منصات المحتوى الرقمي. ومع تعقيد المحتوى المرئي الذي يجمع بين صور، أصوات، ونصوص، تواجه العديد من الطرق التقليدية صعوبة في دمج العلاقات المعقدة بين هذه العناصر، مما يؤدي إلى نقص في فهم المحتوى الكاره بدقة.

استجابة لهذه التحديات، قدم الباحثون إطار عمل مبتكراً يُعرف باسم Reasoning-Aware Multimodal Fusion (RAMF). يعتمد هذا الإطار على مبدأين رئيسيين للتغلب على العقبات الحالية. الأول يتمثل في تصميم خوارزمية Local-Global Context Fusion (LGCF)، التي تهدف إلى التقاط المعلومات المهمة على المستويين المحلي والعالمي، مما يعزز من قدرة النظام على تحليل السياقات المختلفة للمحتوى.

أما الثاني، فيتمثل في إدخال مفهوم Semantic Cross Attention (SCA) للتفاعل الدقيق بين العناصر المتعددة الوسائط. حيث يتمكن هذا الأسلوب من تقديم تفاعلات سموذجية متعددة تعزز الفهم الدقيق للنية الكارهة.

لضمان دقة النتائج، قدم الفريق البحثي أيضاً معالجة منطقية معقدة، تتضمن ثلاث مراحل من التفكير: (1) وصف الموضوعات، (2) استنتاجات محتملة للكراهية، (3) استنتاجات غير متعلقة بالكراهية. يمنح هذا الهيكل المتناظر نماذج الرؤية واللغة القدرة على التنويع في تقديم تفسيرات غنية للسياقات المعقدة.

أثبتت اختبارات الإطار الجديد على مجموعتي بيانات حقيقية لمقاطع الفيديو الكارهة أن تقنية RAMF تعزز الأداء العام بشكل ملموس، حيث أظهرت تحسناً بواقع 3% في تصنيفات Macro-F1 و7% في استرجاع فئة الكراهية مقارنة بأحدث الأساليب المعتمدة في هذا المجال. يتوفر الكود والمعلومات اللازمة لاستنساخ النتائج على الرابط التالي: رابط كود المصدر.

تعتبر هذه الدراسة خطوة هامة نحو تحسين حوكمة المحتوى الرقمي ومواجهة خطاب الكراهية في مقاطع الفيديو. كيف ترون تأثير هذه التكنولوجيا على مواجهة التحديات الرقمية الراهنة؟ شاركونا آراءكم في التعليقات.