في عالم الذكاء الاصطناعي، تظل الانحيازات الاجتماعية أحد المواضيع الأكثر إثارة للجدل، خاصة عندما يتعلق الأمر بتوليد النصوص عبر نماذج اللغات الضخمة (LLMs). مؤخرًا، تم الكشف عن مشروع مبتكر يُعرف باسم StereoTales، الذي يسعى إلى توسيع الدراسات متعددة اللغات المتعلقة بالانحياز من خلال توفير إطار عمل متكامل.
يوفر StereoTales قاعدة بيانات تتضمن تغطية لعشر لغات و79 سمة ديموغرافية، ويضم أكثر من 650,000 قصة تم إنشاؤها بواسطة 23 نموذجًا حديثًا للغات. كل قصة تم وسمها مع ملف ديموغرافي خاص بالشخصية الرئيسية عبر 19 بُعدًا مختلفًا، مما يتيح دراسة التأثيرات الثقافية والاجتماعية المتنوعة على الانحياز في التوليد النصي.
استخدم الباحثون اختبارات إحصائية لتحديد أكثر من 1,500 ارتباط يتم تمثيله بشكل مفرط، وتم تصنيفه من حيث درجة خطورته بواسطة لجنة من 247 إنسان وكذلك باستخدام نفس نماذج اللغات. ملفت للنظر، وجدت الدراسة ثلاثة اكتشافات رئيسية:
1. **الانحيازات موجودة في كل نموذج:** كل نموذج تم تقييمه ينشر انحيازات ضارة في التوليد المفتوح، بغض النظر عن حجمه أو قدراته.
2. **تأثير لغة الاستفسار:** تلعب لغة التوليد دورًا محوريًا في تحديد نوع الانحيازات التي تظهر، حيث تتكيف التحيزات الضارة ثقافيًا مع لغة التقديم وتُعزز من الانحياز ضد الجماعات المحمية محليًا.
3. **توافق أحكام البشر والآلات:** تتوافق تقييمات البشر ونماذج اللغات للضرر بشكل عام، مظهرةً تباينات في فئات سمات محددة بدلاً من تقديمات محددة.
للاستفادة من النتائج، يقدم المشروع كود التقييم وقاعدة البيانات نفسها، بما في ذلك تجارب النماذج وتقديرات السمات وتقييمات الضرر. من المؤكد أن هذه النتائج ستساعد الباحثين والمطورين في تصميم نماذج أكثر توازنًا وإنصافًا.
ما رأيكم في هذا التطور في دراسة الانحيازات الاجتماعية؟ شاركونا في التعليقات.
استكشاف سلوكيات المجتمع: مشروع StereoTales يكشف عن انحيازات قيمة في نماذج اللغات متعددة اللغات
يعد مشروع StereoTales خطوة ثورية في دراسة انحيازات المجتمع عبر نماذج اللغات الضخمة (LLMs) متعددة اللغات. يقدم المشروع قاعدة بيانات تشمل 10 لغات و79 سمة اجتماعية ديموغرافية، مما يجعله أداة مثيرة للاهتمام لفهم هذه الظاهرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
