في عالم يتسم بالتعقيد، تعد القدرة على التعرف على المشاعر (Multimodal Emotion Recognition - MER) أمرًا بالغ الأهمية لفهم التفاعلات الإنسانية. ومع تطور نماذج اللغة الكبيرة المتعددة الأطياف (Multimodal Large Language Models - MLLM)، تبرز الحاجة لفهم كيف تتفاعل هذه النماذج لدى وجود تعارضات بين الأنماط (modality conflict) أو نقص في البيانات.

في هذا الإطار، تم تقديم نموذج EmoMM كمعيار شامل يهدف إلى دراسة سلوكيات MLLM في سياقات معقدة. يتضمن EmoMM مجموعات بيانات متوافقة، وأخرى تتسم بالتعارض ونقص المعلومات، مما يتيح تقييمًا دقيقًا للأداء في مختلف السيناريوهات.

خلال التجارب، تم اكتشاف ظاهرة تعرف باسم انهيار المساهمة الفيديوية (Video Contribution Collapse - VCC)، والتي تشير إلى كيفية تهميش MLLM للأدلة الفيديوية نتيجة للتكرار العالي ووجود تفضيلات معينة للأنماط. لمحاربة هذه الظاهرة، تم اقتراح آلية جديدة تُعرف بتوجيه الانتباه على مستوى الرأس الواعي للتعارض (Conflict-aware Head-level Attention Steering - CHASE)، والتي تسمح للكشف عن التعارضات بين الأنماط وتوجيه الانتباه خلال عملية الاستنتاج، مما يقلل من التحاملات في القرارات دون الحاجة إلى إعادة تدريب النموذج الرئيسي.

أثبتت النتائج التجريبية أن CHASE يحسن الأداء بشكل ملحوظ عبر أنماط متعددة، مما يعزز موثوقية MLLM في سيناريوهات معقدة تعكس المشاعر البشرية بشكل أفضل.