في عالم الذكاء الاصطناعي، تأخذ نماذج اللغة متعددة الأنماط (Multimodal Large Language Models - MLLMs) مركز الصدارة بفضل أدائها المذهل في مجالات متعددة، بما في ذلك فهم الفيديو والتفكير التحليلي. ومع ذلك، يبقى السؤال الأهم: هل يمكن لهذه النماذج أن تقترب من تقديم استجابات بشرية ذات طابع ذاتي تتأثر بالسياقات الاجتماعية والبيئية؟
لإلقاء الضوء على هذا الموضوع، قمنا بتقييم هذه النماذج كمتسابقين اصطناعيين في مهمة ناشئة، تتمثل في تقييم مدى الانخراط الحسي المدرك مع مقاطع الفيديو القصيرة. استند التحليل إلى إطار عمل قيمة إحساس الرسالة المدركة (Perceived Message Sensation Value - PMSV)، حيث تم مقارنة تقييمات المشاركين البشر مع المحاكاة التي قامت بها نماذج MLLMs المشروطة بالبروفايل.
باستخدام مقياس من 17 عنصرًا يقيس الإثارة العاطفية، التأثير الدرامي، والجدة، وُجد أن النماذج المتقدمة مثل Gemini 3 Flash وQwen 3 Omni أظهرت توافقًا محددًا مع المشاركين البشر.
بشكل مثير، أظهرت النماذج انحرافات ملحوظة في توزيعات التقييم، مع تحيزات مركزية واضحة. هذه النتائج تشير إلى أن النماذج قد تعزز وتقلل من الفروقات بين المجموعات، في الوقت الذي تظهر فيه حساسية متباينة للعوامل التي تميز المشاركين.
تستمر الاستراتيجيات التحفيزية في التأثير على هذه القياسات بطرق مختلفة، حيث تحسن بعض الجوانب بينما تؤثر سلبًا على أخرى. هذه النتائج تسلط الضوء على التحديات والفرص التي تواجه تطوير MLLMs كمتسابقين اصطناعيين في أبحاث الفيديو، مما يفتح آفاقاً جديدة للتفاعل بين الإنسان والآلة.
كيف يمكن لنماذج اللغة متعددة الأنماط أن تعيد تشكيل الدراسات القائمة على الفيديو؟ 🔍✨
تسليط الضوء على تقييم الأداء المحدود لنماذج اللغة متعددة الأنماط كمتسابقين اصطناعيين في دراسات الفيديو. كيف يؤثر السياق الاجتماعي على استجاباتهم؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
