في عالم الذكاء الاصطناعي، يُعتبر قياس عدم اليقين (Uncertainty Quantification - UQ) أحد الأدوات الأساسية لضمان استخدام نماذج اللغة الكبيرة (Large Language Models - LLMs) في المجالات الحساسة بشكل آمن. ومع ذلك، أثار الباحثون تساؤلات حول دقة هذه الأساليب، مشيرين إلى أن العديد منها لا تعدو كونها خوارزميات تجميع غير مُراقبة.

تشير الأبحاث إلى أن الأساليب المستخدمة حالياً تركز بشكل أكبر على قياس الاتساق الداخلي لنواتج النموذج بدلاً من دقتها الخارجية. وبالتالي، تفشل هذه الطرق في التعرف على "الهلاوس الواثقة"، حيث تُظهر النماذج ثقة عالية في إجابات ثابتة رغم كونها خاطئة.

الجوانب الحرجة لهذا الاعتماد على الحالة الداخلية تشمل أزمة حساسية المعلمات الفائقة، وهو ما يجعل عملية النشر غير آمنة، ودورة التقييم الداخلي التي تخلط بين الاستقرار والحقائق، وغياب الحقيقة الموضوعية التي تضطر الباحثين للاعتماد على مقاييس هجينة غير مستقرة.

للتغلب على هذا المأزق، يدعو الباحثون إلى تغيير جذري في طريقة قياس وعدم يقين النماذج، حيث يُقترح استخدام مقاييس تقييم جديدة، وتغييرات في الآليات لضمان عدم عدم اليقين بصورة أكثر دقة. الهدف هو ضمان أن تكون ثقة النموذج دليلاً موثوقًا للواقع، ما يضمن أمان استخدام هذه النماذج في التطبيقات الحساسة.