في عالم الذكاء الاصطناعي، لا تقتصر وظيفة أدوات القياس على مجرد تسجيل الواقع، بل تلعب دورًا حيويًا في تشكيل ما يتم ملاحظته. إن تقييم الذكاء الاصطناعي التوليدي يجب ألا يُعتبر تقييمًا تقنيًا عابرًا، بل كعملية متداخلة ضمن نظام اجتماعي تكنولوجي شامل. حيث تصب منظومات التقسيم الوظيفي في تجريد النماذج كأدوات تنبؤية معزولة، بينما تهدف الأساليب المقررة إلى تقييم ما ينبغي أن تكون عليه هذه الأنظمة. وفي كلا الحالتين، نغفل العمليات الاجتماعية والتكنولوجية التي من خلالها يتم تجسيد المعاني والقيم، مما قد يؤدي إلى تعزيز وجهات نظر ثقافية ضيقة في سياقات متنوعة. \n\nتقدم هذه الرسالة تصورًا بديلاً يتسم بالوصف غير القائم على الحكم، حيث تدعو إلى تقييم الذكاء الاصطناعي كمنظومة اجتماعية تكنولوجية متعددة الأبعاد. ومن خلال إنشاء إطار عمل يُعرف بـ 'حلقة الإنسان-الآلة-المجتمع' (Machine-Society-Human Loops)، يتم التوصل إلى فهم كيف تساهم النماذج، والمستخدمون، والمؤسسات في تشكيل المعاني والقيم بشكل متبادل. إن انتقال التقييم من الحكم على النتائج إلى دراسة كيفية تجسيد القيم في التفاعل يعدّ تطورًا مهمًا. \n\nيتضمن البحث ثلاثة مساهمات رئيسية: \n1. مفاهيمية: تعيد 'حلقة الإنسان-الآلة-المجتمع' تشكيل التقييم كعملية متكررة وفاعلة. \n2. منهجية: يقدم معيار القيم العالمي (World Values Benchmark) نهجًا توزيعياً يستند إلى بيانات استطلاع القيم العالمية (World Values Survey)، مع مجموعات من المطالبات المصنفة، ودرجات مدركة للأهداف. \n3. تجريبية: يوضح البحث تلك المبادئ من خلال حالتين: التحول القيمي في بداية نموذج GPT-3 والتقييم الاجتماعي التكنولوجي في قطاع العقارات. \n\nفصل أخير يستند إلى الواقعية التشاركية ويؤكد على أن التحفيز والتقييم هما تدخّلات تأسيسية، وليس ملاحظات محايدة. وتوضح الرسالة أن المعايير الثابتة لا تكفي لتقييم الذكاء الاصطناعي؛ فالتقييم المسؤول يتطلب أطر عمل متعددة القيم تبرز القيم التي تم تجسيدها. وبالتالي، يصبح التقييم موقعًا للحكم، يشكل كيفية فهم النظم الذكاء الاصطناعي ونشرها، ومدى الثقة بها.