في عالم الذكاء الاصطناعي المتطور، لا تتوقف الابتكارات عند حدود المعالجة الدقيقة للأرقام والنصوص، بل تتعداها إلى تعزيز التفاعل الإنساني الآلي في اللحظات الحياتية اليومية. تقدم “SocialOmni” معيارًا جديدًا يعدّ بمثابة نقلة نوعية في كيفية تقييم نماذج اللغات الكبرى (Large Language Models) من حيث قدرتها على التعاطي مع المحادثات الديناميكية.

تدمج النماذج متعددة الوسائط (Omni-modal) بشكل مبتكر بين الصوت والرؤية والنصوص، مما يتيح لها فهم المحادثات الطبيعية. ومع ذلك، كانت المعايير السابقة تركز بشكل مفرط على دقة الأداء الثابت، مما نتج عنه فجوة واضحة في تقييم التفاعل الاجتماعي – أي قدرة النموذج على التنقل بين المفاتيح الديناميكية خلال الحوار.

تتضمن المواصفات الجديدة لـ SocialOmni مجموعة من المعايير الأساسية لتقييم هذا التفاعل الاجتماعي:
1. **فصل وتحديد المتحدثين** (speaker separation and identification): القدرة على معرفة من يتحدث.
2. **التحكم في توقيت المقاطعة** (interruption timing control): معرفة متى يجب التدخل.
3. **توليد مقاطعة طبيعية** (natural interruption generation): كيف يجب صياغة التدخل في الحوار.

تقدم SocialOmni 2,000 عينة إدراكية ومجموعة تشخيصية تتحكم بجودة 209 حالة تفاعل مع قيود صارمة زمنياً وسياقياً، بالإضافة إلى سيناريوهات تداخل صوتي بصري للتحقق من متانة النموذج.

تشير النتائج المبدئية إلى أن هناك تباينًا كبيرًا في قدرات التفاعل الاجتماعي بين 12 نموذجًا رائدًا، مما يكشف عن فصل واضح بين دقة الإدراك وقدرة النموذج على توليد تدخلات سياقية متناسبة. وهذا يعني أن المقاييس التي تركز فقط على الفهم ليست كافية لوصف الكفاءة الاجتماعية في الحوار.

على الرغم من هذه التحديات، توفر التشخيصات المستخلصة من SocialOmni إشارات قابلة للتطبيق لجسر الفجوة بين الإدراك والتفاعل في النماذج المستقبلية، مما يعزز من أهمية إبداع الذكاء الاصطناعي وفعاليته في تطوير سبل جديدة للتواصل والتفاعل.