في عصر الذكاء الاصطناعي، يُعد تقييم الصفات النفسية من خلال المقابلات المرئية غير المتزامنة (AVIs) تحديًا كبيرًا في تعلم نماذج متعددة الوسائط. بسبب نقص مجموعات البيانات المصنفة، وكل رد يتضمن إشارات بصرية وصوتية ولفظية متعددة الأبعاد، تقدم هذه الدراسة الجديدة حلاً مبتكرًا يستهدف تحدي ACM Multimedia AVI Challenge 2026.

تتضمن هذه التقنية اثنين من المهام الرئيسية: المهمة الأولى (Track 1) تتعلق بالتنبؤ بصفات شخصية HEXACO من خلال ردود المقابلات المتعلقة بالشخصية، بينما تركز المهمة الثانية (Track 2) على تصنيف مستويات القدرات العقلية من خلال ردود معلوماتية منظمة.

للتعامل مع هذا التحدي، تم معالجة المشكلة كتعلم تمثيلات من عينات صغيرة، حيث تم استخدام محولات نماذج متعددة الوسائط المجمدة مثل CLIP لاستخراج الميزات البصرية، وWhisper للميزات الصوتية والنصوص، وRoBERTa وE5 وDeBERTaV3 للتمثيلات النصية. يتبع ذلك نماذج منخفضة السعة.

بالنسبة للمهمة الأولى، تمكن النظام من تحقيق متوسط خطأ تربيعي (MSE) قدره 0.2696، مما يمثل تحسنًا كبيرًا عن الأساس الرسمي البالغ 0.3334. وقد أظهرت النتائج التجريبية تقدمًا خطوة بخطوة من نموذج عالمي (0.3189) إلى نمذجة تعتمد على الصفات الفردية (0.2871) واندمجت بعدها لتصل إلى 0.2696، مما يعكس انخفاضًا بنسبة 19.1% في الأخطاء النسبية مقارنةً بالأساس الرسمي.

أما بالنسبة للمهمة الثانية، فقد بلغ دقة الأساس المعتمد على خصائص الموضوع 0.5781، في حين وصلت الدقة مع مجموعة البيانات المتعددة الوسائط إلى 0.5313، وكلا النتيجتين تفوقت على الأساس الرسمي البالغ 0.4062. نستنتج أن هذه النتائج تشير إلى وجود اختصارات في تحليل البيانات بالمجموعة، مما يبرز الحاجة إلى التحكم الدقيق في التحديات عند تقييم القدرات العقلية.

بشكل عام، تدل النتائج على أن التقييم النفسي المستند إلى المقابلات المرئية يسفيد من نمذجة متعددة الوسائط المستندة إلى الصفات، لكن التنبؤ بالقدرات العقلية يتطلب تحكمًا دقيقًا في اختصارات البيانات.