في عالم تتزايد فيه استخدامات نماذج اللغة الضخمة (LLMs) في مجالات اجتماعية مثل الرفقة العاطفية وخدمة العملاء، يبرز السؤال حول كيفية قياس الذكاء الاجتماعي لهذه النماذج. إن قياس هذا الذكاء أمر حيوي لضمان جودة وسلامة التفاعل بين البشر والذكاء الاصطناعي. لكن، تكمن المشكلة في أن المعايير الحالية للذكاء الاجتماعي تفتقر إلى إطار موحد ينظم القدرات الاجتماعية بطريقة شاملة، مما يجعل من الصعب تشخيص المتطلبات الدقيقة.

لذا، تم تطوير معيار NICE (المعيار القائم على نظرية، التفاعل، الإدراك، والخبرة)، كأول تقييم تشخيصي شامل مستند إلى نظريات علم النفس. تم بناء هذا المعيار من خلال مراجعة أدبية، والتحقق من صحة الخبراء على مراحل، ووفقًا لمبادئ نفسية قياسية. يتضمن الإطار الناتج أربع فئات و11 بعدًا، يتم تحديد كل منها من خلال جوانب قدرات دقيقة.

ما يميز معيار NICE هو إدخاله 137 بندًا مُشغَلًا ضمن سياقات ثقافية تمثيلية صينية. وقد أظهرت النتائج أن النماذج الخمسة المتقدمة سجلت دقة أعلى بشكل عام، لكنها تظل ضعيفة في مجال التواصل، حيث تم تحديد ثلاثة جوانب محددة تُعبر عن ذلك: التواصل متعدد الأدوار، التواصل غير اللفظي، وتزامن التواصل.

بفضل هذا المعيار، أصبح بإمكاننا إعادة تشكيل تقييم الذكاء الاجتماعي باتجاه تشخيص ضعفات نماذج اللغة الضخمة (LLMs) بدقة، مما يعزز من إبداعية وتفاعل الذكاء الاصطناعي في مجالات متعددة. هل تعتقد أن هذه المعايير ستحدث فرقًا ملموسًا في تفاعلاتنا مع الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.