في عالم البيانات المتسارع، أصبح استخدام تصنيف النصوص باستخدام نماذج التعلم الآلي، مثل نماذج اللغات الضخمة (Large Language Models)، شائعاً بشكل متزايد. تسعى الدراسة الجديدة إلى معالجة فجوة ملحوظة في هذا المجال، ألا وهي عدم توفير تقديرات دقيقة لعدم اليقين في السجلات. فعلى الرغم من الاعتماد على مقاييس مثل الاسترجاع والدقة لتأكيد موثوقية هذه النماذج، فإن تقديرات عدم اليقين تظل نادرة وغير متسقة في التقارير.

تتطرق هذه الورقة إلى أن الأساليب المستخدمة لتقدير عدم اليقين غالباً ما تكون غير مناسبة، خصوصاً عند وجود مجموعات بيانات مصنفة صغيرة أو عندما تكون أداء النماذج مرتفعًا جداً. تهدف الدراسة إلى تطوير وتحسين طرق عرض فواصل الثقة (Confidence Intervals) في سياق تصنيفات النصوص، حيث يتم اختبارها تحت ظروف نموذجية لمجالات العلوم الاجتماعية.

أظهرت النتائج أن الأساليب التقليدية مثل حزمة والد (Wald Interval) وطرق البوتستراب الأساسية تظهر دقة أقل، بينما أساليب مثل Agresti-Coull وWilson وClopper-Pearson أثبتت أنها أكثر دقة. الأمر الأكثر إثارة هو استخدام البوتستراب ذي العد التقديري الذي يعتبر بالغ الأهمية في حساب مقاييس الأداء مثل F1.

والجدير بالذكر أن الحاجة إلى تعديل عدد النصوص الفعالة ودرجات الحرية المناسبة تكمن في جوهر إنتاج حدود تحليلية دقيقة عند وجود نصوص تحت أفراد. تساهم هذه الدراسات في زيادة الشفافية ضمن تطبيقات التعلم الآلي، وتشجيع الباحثين على الانتباه إلى حجم عينة التحقق في مرحلة التصميم.

الاستنتاج هو دعوة لتحسين دقة تقديرات أداء النماذج، مما سيزيد من موثوقية وشفافية نتائج نماذج الذكاء الاصطناعي في المستقبل.