في عالم الذكاء الاصطناعي، تعتبر نماذج اللغات الضخمة (LLMs) من أبرز الابتكارات التي تجمع المعرفة من مصادر عديدة. ومع ذلك، تبرز تساؤلات جوهرية حول قدرتها على التعامل مع المعايير الاجتماعية المتخصصة، وخاصة معايير الحيادية في ويكيبيديا. دراسة حديثة تطرقت إلى هذه المسألة، حيث تم تقييم أداء LLMs في اكتشاف وتصحيح التحيزات في محتوى ويكيبيديا بناءً على سياسة النقطة المحايدة (Neutral Point of View - NPOV).

أظهرت النتائج أن نماذج اللغات الضخمة كانت تعاني من صعوبة في اكتشاف التحيز، حيث حققت دقة بلغت 64% فقط على مجموعة بيانات متوازنة. كما وُجد أن بعض النماذج كانت تُبالغ أو تُقلل من تقدير التحيز، مما يشير إلى وجود مفاهيم مختلفة للحيادية داخل هذه النماذج.

وعلى الرغم من ذلك، كانت هذه النماذج أفضل بكثير في تعديل المحتوى. حيث تمكنت من إزالة 79% من الكلمات التي أزالها محررو ويكيبيديا، لكنها قامت أيضاً بإجراء تغييرات إضافية لم يطلبها محررو ويكيبيديا، مما أدى إلى نتائج ذات دقة منخفضة بالرغم من استرجاعها للكثير من المعلومات.

مثير للاهتمام، قامت مجموعة من العاملين بتقييم إعادة صياغة الذكاء الاصطناعي على أنها أكثر حيادية (70%) وسلاسة (61%) مقارنة بإعادة صياغة محرري ويكيبيديا. كما أظهر التحليل الكيفي أن LLMs قد تطبق معايير NPOV بشكل أكثر شمولاً من محرري ويكيبيديا، لكنها غالباً ما كانت تُجري تغييرات إضافية غير مرتبطة بالحيادية، مثل تصحيح القواعد اللغوية.

تشير النتائج إلى أن نماذج اللغات الضخمة قد تكون فعالة في توليد المحتوى، لكنها قد تقلل من دور المحررين وتزيد من عبء العمل الإشرافي، مثل التحقق من الإضافات. ومن المثير للقلق أن الأمر الصعب يبقى في أن نماذج الذكاء الاصطناعي قد لا تتمكن من تطبيق القواعد بالطريقة التي يتبعها أعضاء المجتمع.