في عصر وسائل التواصل الاجتماعي، حيث تسود السخرية والتعبيرات المتنوعة، يأتي نموذج URMF (Uncertainty-aware Robust Multimodal Fusion) ليكون الأداة الأقوى في الكشف عن السخرية متعددة الأنماط. يتطلع النموذج إلى تحديد النيات الس sarcastic من خلال فهم الفجوة الدلالية بين النصوص والصور.

على الرغم من أن الأساليب التقليدية قد جربت تحسين الكشف عن السخرية عبر التفاعل بين الأنماط، إلا أن معظمها يعتبر أن جميع الأنماط متساوية في الموثوقية. لكن في الواقع، تتباين مستويات الضوضاء والأهمية بين النصوص والصور بشكل ملحوظ. وهذا يجعل عملية الدمج الحاسمي عرضة للتشويش، مما يؤثر سلباً على الكشف عن السخرية.

نموذج URMF يقدم حلاً مبتكراً من خلال دمج الأدلة البصرية في التمثيلات النصية باستخدام تقنية الانتباه المتقاطع متعدد الرؤوس. بعد ذلك، تُطبق تقنية الانتباه الذاتي (Self-attention) لتعزيز reasoning في الفجوة الدلالية. حيث يقوم النموذج بتمثيل التمثيلات النصية والبصرية كأدلة غاوسية قابلة للتعلم، مما يساعد على تقدير عدم اليقين لكل نمط.

استنادًا إلى تقديرات عدم اليقين، يعدل URMF بشكل ديناميكي مساهمات الأنماط خلال عملية الدمج، مما يقلل من تأثير الأدلة غير الموثوقة. وقد تم تحسين النموذج من خلال هدف موحد يجمع بين تنظيم معلومات القحص (Information Bottleneck Regularization) وتنظيم الأولويات النمطية والمحاذاة بين توزيعات الأنماط والتعلم المعاكس المدفوع بعدم اليقين.

تشير النتائج من التجارب على معايير MSD (Multimodal Sarcasm Detection) وMMSD2 إلى أن URMF يتفوق على النماذج التقليدية الأحادية متعددة الأنماط ونماذج لغات ضخمة (MLLM). تبرز النتائج أن نمذجة عدم اليقين بشكل صريح تعزز من كل من الدقة والموثوقية في كشف السخرية متعددة الأنماط.

في ضوء هذه التطورات، هل تعتقد أن النموذج الجديد سيحدث تغييرًا في كيفية فهمنا للتواصل الساخر عبر المنصات الرقمية؟ شاركونا آرائكم في التعليقات!