في الآونة الأخيرة، أظهرت نماذج اللغة الكبيرة متعددة الأبعاد (Multimodal Large Language Models - MLLMs) قدرات مذهلة في مجالات الإدراك والاستنتاج والتوليد، مما جعلها أدوات أساسية في تطبيقات عدة مثل الروبوتات الاجتماعية وتفاعلات الإنسان مع الكمبيوتر. لكن التحدي الأكبر الذي يواجه هذه النماذج هو فهم العواطف الإنسانية.

بخلاف النماذج التقليدية التي تعنى بالتعرف على العواطف بشكل ثابت، تبقى مسألة فهم العواطف كعملية ديناميكية قيد البحث. هنا تظهر أهمية معيار EmoTrans، الذي تم تصميمه لتقييم فهم الديناميات العاطفية من خلال مجموعة من مقاطع الفيديو المتعددة الأبعاد.

يتضمن EmoTrans 1000 مقطع فيديو تم جمعها بعناية وتعليقها من قبل خبراء، تغطي 12 سيناريوً واقعيًّا، بالإضافة إلى أكثر من 3000 زوج من الأسئلة والأجوبة المتخصصة لتقييم النتائج بدقة. يقدم المعمار أربعة مهام رئيسية: الكشف عن تغييرات العواطف (Emotion Change Detection - ECD)، تحديد حالة العاطفة (Emotion State Identification - ESI)، استنتاج الانتقال العاطفي (Emotion Transition Reasoning - ETR)، والتنبؤ بالعاطفة التالية (Next Emotion Prediction - NEP).

الأبحاث التي أجريت على EmoTrans أظهرت أن النماذج الحالية، رغم أدائها القوي في الكشف الخشن لتغيير العواطف، إلا أنها تواجه صعوبة كبيرة في نمذجة الديناميات العاطفية الدقيقة. كما لا تزال الإعدادات الاجتماعية المعقدة، وبخاصة السيناريوهات متعددة الأشخاص، تمثل تحديًا ملحوظًا.

لذا، تم إصدار هذا المعيار علنًا مع بروتوكول التقييم والكود على موقع GitHub لتسهيل الأبحاث المستقبلية. هل أنتم مستعدون لاستكشاف إمكانيات جديدة لفهم العواطف في الذكاء الاصطناعي؟