استمر التطور في نماذج اللغات الضخمة (Large Language Models) في آفاق جديدة، ومع ظهور Benchmark جديد يُدعى NormAct، يتمثل الهدف منه في قياس كيف يمكن للذكاء الاصطناعي أن يتفاعل مع القواعد الاجتماعية المص隐ة في مهامه. يعكس NormAct التحديات ذات الصلة، حيث يتطلب النجاح في المهام ليس فقط تحقيق الأهداف المعلنة، بل التحرك بطرق مناسبة اجتماعيًا.

تسعى هذه المعايير الجديدة إلى تجاوز التركيز التقليدي على تحقيق الأهداف الواضحة أو معرفة القواعد بشكل مباشر، والتي غالبًا ما تُركّز على النتائج المعلنة دون التحكم في الأبعاد الاجتماعية للمسألة. يُظهر NormAct كيف يمكن للنماذج أن تُقيم على أسس ثلاثة عناصر رئيسية: تحقيق الأهداف، الالتزام بالقواعد، والنجاح في المهمة الاجمالية.

من خلال تجارب على نماذج MLLMs المتطورة مثل GPT-5.4 وClaude Opus 4.7 وGemini 3 Pro، وُجد أن هذه النماذج تحقق الأهداف الصريحة في 67.3% من الحالات لكنها تلتزم بالقواعد الاجتماعية المخفية في 26.4% فقط، مما يبرز فجوة ملحوظة.

نتيجة لذلك، ظهرت الحاجة إلى أدوات جديدة مثل NormPerceptor، وهي مولد سياقي يساعد في التعرف على القواعد الاجتماعية ذات الصلة قبل بدء التخطيط، مما يرفع نسبة النجاح من 24.2% إلى 46.7%.

هذه النتائج تبرز أهمية تمكين الروبوتات الذكية من اكتشاف القواعد المخفية بشكل استباقي، وتطبيقها في تخطيط أعمالها. تعتبر هذه النقطة حيوية لمستقبل التطويرات في أدوات الذكاء الاصطناعي.

لضمان الوصول إلى أحدث التطورات، تم إصدار NormAct للجمهور عبر الرابط: https://huggingface.co/datasets/Caleb196x/NormAct.