تُعتبر نماذج اللغات الضخمة (Large Language Models) من الأدوات الحديثة الشائعة في عالم تقييم مصداقية الأخبار، لكن تبقى هناك تساؤلات حول كيفية تعامل هذه النماذج مع مختلف أنواع الأخبار. في دراسة جديدة نُشرت على موقع arXiv، تم إجراء تحليل على نماذج مختلفة بهدف معرفة ما إذا كانت هذه النماذج تميل إلى تصنيف أخبار الترفيه على أنها مزيفة أكثر مما تفعل مع الأخبار الجادة.

استخدم الباحثون في دراستهم مجموعة بيانات من GossipCop، وقاموا بفحص أربع نماذج رائدة؛ حيث أظهرت النتائج وجود عدم تناسق في معدلات التصنيف الخاطئ بين الأنواع المختلفة من الأخبار. كانت نموذج DeepSeek-V3.2 وGPT-5.2 الأكثر ميلاً لتصنيف أخبار الترفيه بشكل خاطئ، حيث سجلا فجوة وصلت إلى 10.1 و8.8 نقطة مئوية على التوالي. بينما أظهرت نماذج أخرى مثل Claude Opus 4.6 وGemini 3 Flash نتائج مختلفة تمامًا دون وجود أي فرق ملحوظ.

تشير التجارب التي أُجريت لتعديل الأسلوب إلى أن هذا الخلل ليس ناجماً فقط عن اختلاف في الأسلوب، بل تم تحديد نمطين متكررين في الأخطاء التي تم التعرف عليها. الأول هو اعتبار المعلومات الشخصية بأنها غير قابلة للتحقق بالضرورة، والثاني هو تقليل القيمة المعرفية لأخبار الترفيه.

علاوة على ذلك، تم التوصل إلى أن استراتيجيات التخفيف المعتمدة على الإرشادات قد تكون فعّالة، حيث أدت بعض الطرق في تحويل النماذج إلى مصححين لأخبار الترفيه إلى انخفاض بنسبة 50% في التصنيفات الخاطئة عند استخدام DeepSeek-V3.2.

تقدم هذه الاكتشافات رؤية جديدة حول كيفية تقييم نماذج اللغات الضخمة لمصداقية الأخبار، حيث يمكن أن يكون للأداء الجماعي تأثير مقلق في تضليل دقة التصنيفات. ومن المهم بالتالي إجراء تحليلات تفصيلية تأخذ في الاعتبار التصميم النوعي للأخبار لتفادي الأخطاء في التقييم.