في عالم الذكاء الاصطناعي المتسارع، يعتبر فهم كيفية قياس ثقة نماذج اللغة الكبيرة (LLMs) أمراً بالغ الأهمية. غالبًا ما يتم تقويم دقة الثقة من خلال مقارنة علامتين: درجات احتمال الرموز (token-probability scores) وثقة الكلام المعلنة (verbalized confidence). ومع ذلك، فإن هذه المقارنات تعتمد على اختيارات قياسية لم تُعد واضحة دائمًا.
في تحليل رئيسي، تم تثبيت طريقة استدعاء الثقة المعلنة: باستخدام قالب واحد للاستفسار، ومقياس احتمال، وصيغة إخراج موحدة. ومن ثم، تم تغيير المحاور القياسية التي تحدد مقارنة الثقة المعلنة مقابل علامات الرموز: أي سلسلة إجابة تتلقى درجة احتمال الرموز، كيفية قراءة هذه الدرجة من الرموز، وفي أي سياق مشروط يتم قياسها.
قدّم البحث تقييمًا لهذا التصميم على أربعة معايير للأسئلة والأجوبة (QA) عبر ثلاث أسر متميزة من نماذج 7-8B الأساسية (base) والموجهة (Instruct)، مع تحقق من نوعية Qwen2.5 للتحقق من مدى متانة النتائج. وجد الباحثون أن المقارنة كانت حساسة لهذه الخيارات القياسية: فقد تغير سياق المشروط من بعد إلى آخر في فجوة خطأ توقع الثقة (ECE gap)، في حين أن قراءة الرموز كانت تُظهر تغييرات أصغر ولكنها لا تزال مؤثرة.
وعند النظر إلى الإعدادات المُعتمدة على الإجابات المُنتجة مسبقًا، كانت النتائج قريبة من المساواة بدلاً من إظهار فائدة كبيرة للثقة المعلنة. كما أظهرت مجموعة التحليل المنفصل أن الإجابات الخاطئة القابلة للتصديق حصلت على ثقة مشابهة للإجابات الذهبية، مما يشير إلى أن الثقة المعلنة تعكس كذلك إمكانية الإجابة وموثوقيتها بدلاً من صحتها فقط.
يعرض هذا البحث دعوة لعلاج كلاً من مؤشرات الثقة كقياسات سلوكية تعتمد على البروتوكولات، ويقدم قائمة مراجعة لتقارير تشمل أصول الاستدعاء، الإجابة المُقيّمة، كيفية قراءة درجات الرموز، والسياق المشروط.
هل الطلب وحده كافٍ؟ تحليل دقة ثقة نماذج اللغة الكبيرة
تحدثت الدراسة عن أهمية تحليل دقة ثقة نماذج اللغة الكبيرة (LLMs) من خلال مقارنة مؤشرات الثقة المختلفة وتأثير الخيارات القياسية على النتائج. النتائج تشير إلى أن الثقة تعكس أكثر من مجرد صحة الإجابات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
