في عالم يتزايد فيه استخدام نماذج اللغة الكبيرة (Large Language Models) كمصادر أساسية للمعلومات، تبرز أهمية فحص الانحيازات السياسية التي قد تؤثر على موضوعيتها. ومع شيوع التقييمات الحالية التي تقيس الانحيازات الاجتماعية، فإنها تركز بشكل رئيسي على الصور النمطية السكانية، وتتجاهل القيم التي تشكل التفكير السياسي والاجتماعي.
تهدف PoliticsBench إلى معالجة هذه الفجوة من خلال تقديم أداة تقييم متعددة المراحل، تتميز بتقييم تعبير القيم الدقيقة في نماذج اللغة الكبيرة. تشمل PoliticsBench عشرين سيناريو متطوراً، حيث تستطيع النماذج التعبير عن تجارات ومعادلات واتخاذ قرارات تحت ضغوط تنافسية.
أظهرت الدراسات على ثمانية نماذج بارزة أن الاستخدام الذكي للسيناريوهات يعزز من تنوع وعمق تعبير القيم، حيث أدى لزيادة ملحوظة تصل إلى 0.75 نقطة على مقياس من 10. كما زادت التزام النماذج بوجهات نظرها بشكل كبير خلال مراحل التفاعل، حيث ارتفعت التقييمات بمقدار 1.4 نقطة على مقياس من 0 إلى 5. بينما تصبح الاستجابات أقل قوة عند إعادة صياغة السيناريو في المراحل اللاحقة للتفاعل، يبقى الاتفاق بين القضاة ثابتاً نسبياً.
تشير النتائج إلى أن تقييم سلوك النماذج يتطلب تجاوز العروض التقديمية الثابتة نحو إعدادات تفاعلية طويلة تمتد عبر الزمن، مما يمكّننا من فهم كيفية تطبيق القيم في سياق معين. تسلط PoliticsBench الضوء على ضرورة إعادة التفكير في كيفية تقييم الانحيازات السياسية في عالم الذكاء الاصطناعي المتطور.
سيطرة القيم السياسية: مستقبل تقييم نماذج اللغة الكبيرة عبر PoliticsBench
تمثل PoliticsBench قفزة نوعية في تقييم كيفية تعبير نماذج اللغة الكبيرة عن القيم السياسية. تقدم هذه الأداة الجديدة رؤى أعمق حول انحيازات النماذج في ظل ضغط الظروف المتغيرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
