في ظل تزايد الاعتماد على تقنيات الذكاء الاصطناعي في تحليل الخطاب الديمقراطي، تقدم النماذج اللغوية الكبيرة (LLMs) دورًا حيويًا في تقييم التصريحات السياسية. لكن هل يمكن اعتبار هذه الأنظمة موثوقة دائمًا؟ دراسة جديدة نُشرت على arXiv تستعرض ذلك من خلال اختبار نظام TRUST، والذي يعتمد على نماذج متعددة تعمل بتنافسية لتقديم تقييمات متعددة الأبعاد.
تتركز فرضية البحث حول قدرة النماذج على الالتزام بالأدوار المحددة لها، وهو ما تم اختباره بشكل منهجي لأول مرة. من خلال استخدام مصنف للمعرفة، تمكن الباحثون من التعرف على الأدوار الدعائية ضمن النصوص المعتمدة، وقياس دقة الأدوار عبر 60 تصريح سياسي (30 باللغة الإنجليزية و30 بالألمانية) باستخدام أربع مقاييس: مؤشر انحراف الدور (RDI) والمسافة المتوقعة من الانحراف (EDD) ومؤشر الانحراف الاتجاهي (DDI) والقدرة المعتمدة على الاستقرار (ERS).
الكشوف المثيرة تتضمن وجود نوعين من الأعطال: "أثر الأرضية المعرفية" (Epistemic Floor Effect) حيث تؤدي نتائج التحقق من الحقائق إلى حد أدنى مطلق يصعب الحفاظ على الدور الشرعي، و"صراع الأولويات الدورانية" (Role-Prior Conflict) حيث تتغلب المعرفة المكتسبة أثناء التدريب على التعليمات الدورانية. ويظهر هذا عبر إلغاء الدور (Epistemic Role Override - ERO).
النتائج أظهرت أن اختيار النموذج يؤثر بدرجة كبيرة على احتفاظه بالدور، حيث كان أداء نموذج Mistral Large أفضل من Claude Sonnet بفارق 28 نقطة مئوية، وتبين أن هناك اختلافًا نوعيًا في نمط الفشل بين النموذجين.
كما أظهرت الدراسة أيضًا أن اختيار مزود التحقق من الحقائق ليس محايدًا بشكل عالمي، إذ كان له تأثير ملحوظ على دقة نموذج Claude في التصريحات الألمانية، بينما لم يتأثر نموذج Mistral بذلك.
في نهاية المطاف، تسلط هذه النتائج الضوء على أهمية قياس دقة الدور في أنظمة الذكاء الاصطناعي متعددة الوكلاء، حيث إن عدم الاهتمام بهذا القياس قد يؤدي إلى تفسير مضلل للتنوع المعرفي المستهدف في هذه الأنظمة.
عندما تفشل الأدوار: معوقات معرفية في تحليل بيانات التصريحات السياسية بواسطة نماذج لغوية كبيرة
تتطرق الدراسة إلى فعالية أداء نماذج الذكاء الاصطناعي في تحليل التصريحات السياسية وتصدّيها للأدوار المعينة. نتائج البحث تكشف عن تحديات معرفية تؤثر على دقة هذه النماذج وقدرتها على التقييم الدقيق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
