في ظل تزايد الاعتماد على نماذج اللغات الضخمة (Large Language Models) كجهات معرفية تُساعد في صنع القرار، تبرز الحاجة لفهم كيفية تقييم هذه النماذج لمصادر المعلومات المتنوعة. ورغم قدرتها على اكتشاف الإحصائيات المُزورة بدقة تصل إلى 100% في بعض الحالات، إلا أنها تعاني من ضعف في التمييز بين المعلومات الصحيحة والمُزورة عند تقديم بيانات من عدة مصادر.

وبحسب دراسة مؤخرة، تمتعي نماذج اللغات الضخمة بقدرة على اكتشاف الإحصائيات المُزورة، لكن هذا لا يُترجم إلى قوة تمييز عند تجمع البيانات من مصادر مختلفة. فالنموذج لا يميز بين الأوزان النوعية للإحصائيات المُزورة والصحيحة بصورة صحيحة، وذلك يرجع إلى آلية فك ضغط المعلومات التي تعتمد على أسلوب تقديم البيانات دون النظر إلى مصداقيتها الفعلية.

هذه الظاهرة تبرز تحديًا حقيقيًا في الأنظمة المعتمدة على نماذج الذكاء الاصطناعي في اتخاذ القرارات الحاسمة. النتائج الناتجة عن تداخل مصادر المعلومات يمكن أن تكون مضللة في بعض الأحيان، حيث يُعطى نفس الوزن لمعلومات غير صحيحة كتلك الصحيحة مما يؤدي إلى اتخاذ قرارات غير دقيقة.

اكتُشفت أيضاً أن هذه الظاهرة ليست مقتصرة على نموذج واحد، بل تتكرر عبر مجموعة من النماذج وفي مجالات مهنية مختلفة. بالرغم من وجود تقنيات مقترحة مثل قوائم التحقق، فإنها تنتج سلوكيات تشكك في كل المعلومات، بدلاً من تمييز الجيد من السيئ.

في انتهاء المطاف، يبقى السؤال مفتوحًا حول كيفية تحسين الأداء في استخدام الذكاء الاصطناعي ليس فقط للتعرف على المعلومات لكن أيضًا للتمييز بين جودة تلك المعلومات. كيف يمكننا التأكد من أن النماذج تستفيد من جميع قدراتها لتقديم نتائج دقيقة وموثوقة؟