في عالم الذكاء الاصطناعي، يسعى الباحثون دائمًا نحو تطوير نماذج قادرة على فهم التفاعلات الاجتماعية المعقدة. في هذا السياق، تم تقديم SIV-Bench، معيار مبتكر يهدف إلى تقييم قدرات نماذج اللغات متعددة الوسائط (Multimodal Large Language Models) على فهم المشاهد الاجتماعية، والتحليل، وتوقع الديناميات الاجتماعية.

يستند SIV-Bench إلى نظرية العلاقات الاجتماعية، حيث يوفر مجموعة من الفيديوهات الأصلية التي تشمل 2,792 مقطع فيديو، و5,455 زوجًا من الأسئلة والأجوبة التي تم تنسيقها من خلال تعاون بين الإنسان ونموذج الذكاء الاصطناعي. لقد تم تصميمه بعناية ليغطي 14 نوعًا من العلاقات الاجتماعية، بالإضافة إلى تنوع واضح في ألوان الفيديوهات وأسلوب تقديم المحتوى.

تظهر التجارب الشاملة أن النماذج الرائدة في مجال MLLM تحقق أداء جيدًا في فهم المشاهد الاجتماعية (Social Scene Understanding)، لكن نقاط ضعفها تتجلى في التحليل والديناميات الاجتماعية. هذه النتائج تكشف عن لبس كبير في عملية استنتاج العلاقات، مما يتطلب تبني نماذج أكثر توافقًا مع طرق التفكير البشرية، مما قد يساعد في تحسين الأداء.

علاوة على ذلك، أظهرت الدراسات أن استخدام الصوت والترجمات يعدّ مكملًا قويًا لتحسين أداء نماذج الذكاء الاصطناعي في التحليل الاجتماعي.

SIV-Bench يمثل خطوة هامة نحوقياس التقدم، ووضع حدود، وتوجيه الأبحاث المستقبلية نحو نماذج أكثر قدرة على التفاعل الاجتماعي. يُمكنك استعراض مجموعة البيانات والكود البرمجي المتاح على موقع المشروع الرسمي: [https://kfq20.github.io/sivbench](https://kfq20.github.io/sivbench).