في عالم الذكاء الاصطناعي، يعد فهم التفاعلات الاجتماعية من الأمور الحيوية، وخاصة عندما يتعلق الأمر بإدراك الإشارات غير اللفظية. ومع ذلك، تواجه النماذج اللغوية متعددة الوسائط (Multimodal Large Language Models) تحديات كبيرة في تحليل التفاعلات المعقدة بين الأشخاص في الفيديوهات. هنا يأتي دور GRASP، قاعدة البيانات الثورية التي تهدف إلى تحسين قدرة النماذج على التعرف على التفاعلات الاجتماعية في الفيديوهات ذات الأشخاص المتعددين.

تحتوي GRASP على قرابة 290,000 سؤال وإجابة، مستندة إلى 46,000 فيديو تصل مدتها الإجمالية إلى 749 ساعة. هذا المشروع يجمع بين تحليل الإشارات الدقيقة مثل نظرات العين والإيماءات الدالة، ويتميّز بنظام تصنيف يتضمن 16 فئة مختلفة.

تسعى GRASP إلى تحقيق قفزة نوعية في فهم التفاعلات الاجتماعية من خلال تطوير سؤال يجمع بين مسارات نظر الهوية والإيماءات الدالة وتكويناتها المشتركة في أحداث اجتماعية. ومع إضافة "مكافأة أساسية اجتماعية" (Social Grounding Reward)، يتم تحفيز النماذج لتطوير القدرة على التفكير في المشاركين في كل تفاعل. تُظهر نتائج التجارب أن مكافأة الأساس الاجتماعي تُحسن الأداء على منصة تقييم GRASP-Bench، مع الحفاظ على الأداء على معايير التقييم الاجتماعية ذات الصلة.

بفضل هذا الابتكار، يمكن للذكاء الاصطناعي الوصول إلى مستويات أعلى من الكفاءة في تحليل التفاعلات الاجتماعية، مما يؤدي إلى مزيد من الفهم والقدرة على التواصل. كيف تعتقد أن هذا التطور سيؤثر على مستقبل التفاعل الاجتماعي في التطبيقات المختلفة؟ شاركونا آراءكم وأفكاركم في التعليقات!