في عالم السياسة، قد يبدو أن الشعور العام حول موضوع معين له تأثير مباشر على كيفية تقييم الإيديولوجيا السياسية. لكن، هل فعلاً يحدث هذا؟ في دراسة جديدة، تم طرح هذا السؤال من خلال تحليل مقالات سياسية تم جمعها من منصة AllSides، مع إضافة تقييمات شعورية من نموذج Llama-3.3-70b-versatile.

قورنت تقييمات الإيديولوجيا بين كل من المقيّمين البشريين، نموذج GPT-4o-mini، ونموذج Llama-3.3-70B. استخدمت الدراسة تقنيات متقدمة مثل التعلم الآلي المزدوج (Double Machine Learning - DML) وتحليل الوساطة على مستوى المجتمع عبر جميع أنماط التقييم.

أظهرت النتائج أن تقييمات البشر لم تُظهر أي تأثيرات سببية ملحوظة على مستوى المجتمع. ومع ذلك، نموذج GPT-4o-mini، خاصة بعد تحسينه، حقق أعلى دقة في التصنيف بنسبة (F1=72.48) وكان النموذج الوحيد الذي أظهر تأثيرات علاجية واضحة وملحوظة.

تثير هذه النتائج قضية مهمة بشأن ما يُعرف بالتعلم المختصر (shortcut learning)، حيث يتمكن النموذج من التعلم من البيانات المعلَّمة على الإيديولوجيا، مما يؤدي إلى ارتباط وهمي بين الشعور والإيديولوجيا، وهو ارتباط لا يظهر في الحكم البشري لهذه المهمة.

هذا الأمر يُظهر أيضاً قيوداً في تقييم فعالية النماذج اللغوية الكبرى (Large Language Models) عند استخدامها كمؤشرات للقرارات الإنسانية في التحليلات السببية المستقبلية.