في عالم الذكاء الاصطناعي، يمثل تحليل المشاعر البصرية خطوة حاسمة نحو تحقيق تفاعلات أكثر طبيعية مع البشر. مع ظهور نماذج لغوية متعددة الوسائط (Multi-modal Large Language Models) الجديدة، حان الوقت لتطوير قياسات أكثر دقة لتقييم قدرتها على فهم المشاعر المستخلصة من الصور.
تقدم الآونة الأخيرة دراسات استخدم فيها البشر نماذج الذكاء الاصطناعي، مما أظهر أنهم يميلون في بعض الأحيان إلى تفضيل تنبؤات هذه النماذج على التقييمات المعتمدة في المجموعات البيانات الحالية. تبدو هذه الظاهرة مفاجئة، إذ اعتُقد أن التقييمات البشرية ستكون أكثر دقة، لكن الأمر في النهاية يعود إلى مشكلات التوثيق في البيانات المستخدمة.
تسلط هذه الورقة الضوء على إنشاء مجموعة بيانات معيارية لتحليل المشاعر البصرية بعنوان MultiEmo-Bench، والتي تهدف إلى سد الفجوة الحالية في الطرق المتبعة. بدلاً من الاعتماد على مشاعر فردية تم تقييمها بواسطة مُعلق واحد، تعتمد هذه المنهجية الجديدة على إشراك 20 مُعلقًا لكل صورة، حيث يُطلب منهم اختيار جميع المشاعر التي تنبعث من الصورة. يتم تجميع التصويتات من جميع المُعَلِقين لضمان تمثيل دقيق وتوزيع موثوق للمشاعر.
تحتوي مجموعة البيانات الناتجة على 10,344 صورة وأكثر من 236,000 صوت صادق عبر ثمانية مشاعر مختلفة، مما يعد طفرة في تحسين فاعلية تقييم هذه النماذج. من خلال هذه البيانات، تم تقييم أداء نماذج مثل Qwen3-VL و OpenAI's GPT و Gemini وClaude في كلا من التنبؤ بالمشاعر السائدة وتوزيع المشاعر.
تظهر النتائج تقدمًا ملحوظًا، ولكنها أيضًا تشير إلى وجود مجالات كبيرة يمكن تحسينها. بالإضافة إلى ذلك، أظهرت تجاربنا مع نماذج LLM كقضاة أن هذه الطريقة لا تحسن أداء النماذج بشكل مستمر، مما يبرز القيود العديدة في تحليل المشاعر البصرية.
إن إدخال معيار MultiEmo-Bench يبشر بفصل جديد في تقدير المشاعر ويعد بفتح آفاق جديدة لمستقبل التفاعل بين الإنسان والآلة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!
ثورة جديدة في تحليل المشاعر البصرية: تعرف على MultiEmo-Bench!
تقدم MultiEmo-Bench معيارًا مبتكرًا لتحليل المشاعر البصرية، مما يسهم في تحسين أداء نماذج الذكاء الاصطناعي متعددة الوسائط. تعتمد هذه المنهجية الجديدة على تقييم شامل يعكس مشاعر البشر بدقة أعلى.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
