في عالم الذكاء الاصطناعي، تعد الفيديوهات ذات المنظور الذاتي (Egocentric Videos) واحدة من الوسائل الفريدة لفهم النشاطات البشرية وتجارب المستخدمين. وتبرز الصوتيات في هذه الفيديوهات كعوامل حاسمة لفهم البيئة المحيطة، وبالتحديد في حالات تفشي عدم الاستقرار البصري ناتجة عن الحركة المستمرة للكamera.

تظهر الأبحاث الحديثة تخبطاً في أداء نماذج اللغات الصوتية والبصرية الكبيرة (AV-LLMs) حيث إنها تكتسب القدرة على توليد أوصاف متعددة الوسائط، ولكنها في ذات الوقت تعاني من ظاهرة تُعرف بالهلوسة الصوتية (Audio Hallucinations). وهذا يعني أنها أحياناً تُستنتج أصوات غير واقعية من المشاهد المرئية المتاحة، بحيث لا تصدر أي صوتٍ مُسمَع.

استهدفت الدراسة الأخيرة تطوير إطار تقييم تلقائي ومنهجي لتحليل هذه الهلوسة الصوتية في الفيديوهات ذات المنظور الذاتي عبر بروتوكول موجه للأسئلة والأجوبة. تم إنشاء قاعدة بيانات تضم 300 فيديو وصورت أنشطة المستخدمين وصُممت 1000 سؤال تركز على الصوت لاستكشاف مخرجات النموذج.

لتمييز الهلوسات الصوتية، تم اقتراح تصنيف مُنَشَأ يميز بين أصوات الأنشطة (Foreground Action Sounds) التي تنتج عن المستخدم والأصوات المحيطية (Background Ambient Sounds). تشير النتائج إلى أن النماذج المتطورة مثل Qwen2.5 Omni تُظهر معدلات هلوسة مرتفعة، حيث حققت فقط دقة 27.3% و39.5% فيما يخص الأسئلة المتعلقة بالأصوات الأمامية والخلفية على التوالي.

تسلط هذه الدراسة الضوء على الحاجة إلى قياس موثوقية الاستجابات متعددة الوسائط، مما يوضح أن التقييم الدقيق للهلوسة يعد أمراً أساسياً لتطوير نماذج AV-LLMs موثوقة. كيف تعتقد أنه يمكن التغلب على هذه التحديات؟ شاركونا أفكاركم في التعليقات!