في عالم الذكاء الاصطناعي، تتجاوز التحديات التي تواجه نماذج اللغة (Language Models) حدود الإجابات الواضحة. في العديد من المجالات، مثل الرعاية الصحية والمالية، تواجه هذه النماذج صعوبات في التعامل مع المعلومات غير المتكاملة واتخاذ قرارات مستندة إلى عدم اليقين.

تقدم الدراسة الجديدة OpenEstimate كمعيار متعدد المجالات لتقييم نماذج اللغة في مهام تقدير الأرقام، حيث يلزم على النماذج أن تجمع كميات كبيرة من المعلومات الخلفية وتعبّر عن توقعاتها كأولويات احتمالية.

تظهر النتائج أن النماذج المعتمدة تفتقر إلى الدقة وغالبًا ما تكون متفائلة أكثر من اللازم، مما يبرز أهمية تطوير ممارسات تقييم جديدة تعكس التحديات الحقيقية. على الرغم من التحسينات الطفيفة التي يمكن تحقيقها من خلال استراتيجيات استعلام مختلفة، يبدو أن التصميم الأساسي للمهام يؤثر قليلاً على الأداء.

إن OpenEstimate يمثل خطوة نحو تطوير نماذج قادرة على تقديرات احتمالية أفضل وقدرة أكبر على التفكير تحت الضغط، مما يعد بتغيير جذري في الطريقة التي نستخدم بها الذكاء الاصطناعي.