في عالم الذكاء الاصطناعي، يُعتبر [قياس عدم اليقين](/tag/[قياس](/tag/قياس)-عدم-اليقين) ([Uncertainty Quantification](/tag/uncertainty-quantification) - UQ) أحد [الأدوات](/tag/الأدوات) الأساسية لضمان استخدام [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)) في المجالات الحساسة بشكل آمن. ومع ذلك، أثار الباحثون تساؤلات حول [دقة](/tag/دقة) هذه الأساليب، مشيرين إلى أن العديد منها لا تعدو كونها [خوارزميات](/tag/خوارزميات) تجميع غير مُراقبة.

تشير [الأبحاث](/tag/الأبحاث) إلى أن الأساليب المستخدمة حالياً تركز بشكل أكبر على [قياس](/tag/قياس) الاتساق الداخلي لنواتج النموذج بدلاً من دقتها الخارجية. وبالتالي، تفشل هذه الطرق في [التعرف](/tag/التعرف) على "[الهلاوس](/tag/الهلاوس) الواثقة"، حيث تُظهر [النماذج](/tag/النماذج) [ثقة](/tag/ثقة) عالية في إجابات ثابتة رغم كونها خاطئة.

الجوانب الحرجة لهذا الاعتماد على الحالة الداخلية تشمل أزمة [حساسية](/tag/حساسية) المعلمات الفائقة، وهو ما يجعل عملية النشر غير آمنة، ودورة [التقييم](/tag/التقييم) الداخلي التي تخلط بين [الاستقرار](/tag/الاستقرار) والحقائق، وغياب الحقيقة الموضوعية التي تضطر [الباحثين](/tag/الباحثين) للاعتماد على [مقاييس](/tag/مقاييس) [هجينة](/tag/هجينة) غير مستقرة.

للتغلب على هذا المأزق، يدعو الباحثون إلى تغيير جذري في طريقة [قياس](/tag/قياس) وعدم يقين النماذج، حيث يُقترح استخدام [مقاييس](/tag/مقاييس) [تقييم](/tag/تقييم) جديدة، وتغييرات في الآليات لضمان عدم [عدم اليقين](/tag/عدم-اليقين) بصورة أكثر [دقة](/tag/دقة). الهدف هو ضمان أن تكون [ثقة](/tag/ثقة) النموذج دليلاً موثوقًا للواقع، ما يضمن [أمان](/tag/أمان) استخدام هذه [النماذج](/tag/النماذج) في [التطبيقات](/tag/التطبيقات) الحساسة.