أصبح موضوع عدم اليقين في نماذج اللغة الكبيرة (Large Language Models) محط اهتمام متزايد في الأبحاث الحديثة. يسعى العلماء إلى تطوير أساليب لقياس عدم اليقين أثناء الاستنتاج (Inference-Time Uncertainty) بهدف تحسين الثقة في النموذج وتعزيز تجربة المستخدم.

إن قياس عدم اليقين يوفر إشارة في الوقت الحقيقي إلى النموذج أو إلى وحدات التحكم الخارجية، مما يجعل من الضروري دمج هذه المفاهيم لتحسين التفاعل بين الإنسان والنموذج. لكن، رغم أن العديد من الأبحاث كانت تهتم بتقييم دقة النموذج (Calibration)، إلا أن القليل منها قام بتقييم مدى توافق عدم اليقين في النموذج مع عدم يقين البشر.

في هذه الدراسة، تم تقييم مجموعة من مقاييس عدم اليقين أثناء الاستنتاج، مستخدمين كل من المعايير المعتمدة والابتكارات الحديثة. وعلى الرغم من عدم توافق بعض المقاييس مع تفضيلات البشر في الإجابات، إلا أن العديد منها أظهر توافقًا قويًا مع عدم يقين البشر. بالنسبة لقياسات النجاح، تم العثور على أدلة معتدلة إلى قوية على دقة النموذج من حيث ارتباطه بالصواب وتحليل التوزيع.

تُعَد هذه النتائج خطوة هامة نحو تطوير نماذج أكثر دقة وقادرة على تقديم تجارب أفضل للمستخدمين، مما يدفع البحث في مجال الذكاء الاصطناعي نحو أفق جديد مليء بالاحتمالات. هل تعتقد أن تطوير دقة النموذج سيمكننا من زيادة الثقة في تكنولوجيا الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.