تتسارع استخدامات نماذج اللغات الضخمة (Large Language Models) في مجالات التفاعل بين الإنسان والذكاء الاصطناعي، لكن الكثير من الدراسات الحالية تركز على القدرات والمعايير الأمنية دون أن تكشف الكثير عن أولويات القيم التي تعبر عنها هذه الأنظمة.

في دراسة حديثة، تم تقديم نهج يعتمد على تحليل المخرجات لتقييم جانب واحد من جوانب توافق الذكاء الاصطناعي، حيث تم اعتبار النصوص التي تنتجها نماذج اللغات الضخمة بمثابة بيانات سلوكية تتم مقارنتها مع مرجع بشري.

شملت الدراسة ثلاث مراحل رئيسية:
- **المرحلة الأولى**: استخدمت تحليلًا نوعيًا استقرائيًا لاستنتاج ستة موضوعات تتعلق بوظائف الذكاء الاصطناعي المثلى، وهي الأداء، والقدرة التكيفية، والخير الاجتماعي، والأخلاق والمسؤولية، والتكامل العلاقي، والوكالة.
- **المرحلة الثانية**: أظهرت أن مخرجات نماذج اللغات الضخمة كانت مستقرة للغاية داخل النماذج واتفقت على هيكل قيمة أولوياته عبر النماذج، مما يشير إلى موثوقية وقابلية المقارنة بين ملفات القيم.
- **المرحلة الثالثة**: تم تقييم 75 نموذجًا معاصرًا للغات ضد 376 مشاركًا بشريًا باستخدام مقياس يُركز على دقة الملف، مما يعكس الترتيب النسبي للأولويات ومعايرة الفروقات بين الأولويات.

على الرغم من أن معظم النماذج أعادت إنتاج ترتيب القيم الإنسانية، إلا أن بعضها بالغ في الفروقات بينها، مما يظهر أن النماذج قد تتوافق مع المعايير التقليدية بينما لا تزال تختلف عن معايرة القيم البشرية. كما أظهرت دقة الملف تباينًا كبيرًا بين النماذج، ولم تتماشى بشكل موحد مع الحجم أو حداثة النموذج أو مستوى القدرة.

هذه النتائج تثير تساؤلات هامة حول التطورات المستقبلية للأنظمة الذكية ذات الوكالة المتزايدة. من خلال هذه الدراسة، تأتي الموضوعات الستة والمقياس القائم على الملف كطريقة قابلة للتطبيق لفحص ملفات قيم نماذج اللغات الضخمة قبل نشرها في سياقات حيث توافقها مع أولويات البشر أمر بالغ الأهمية.