في تحول مثير للأبحاث المتعلقة بالذكاء الاصطناعي، تم الكشف عن أن الثقة المعلنة من قبل نماذج اللغة الكبيرة (LLMs) لا تعكس دائماً الدقة الصحيحة للإجابة. بدلاً من ذلك، تشير الدراسات الحديثة إلى أن هذه التقارير تتعلق أكثر بالالتزام بالقرار من كونها مؤشراً على صحة الإجابة.
توكيد الثقة هو تقدير لمدى احتمال أن تكون الإجابة المختارة صحيحة. وبالرغم من استخدام تقارير الثقة كأداة لقياس عدم اليقين في نماذج اللغة الكبيرة، إلا أن فائدتها كأداة لتقدير الدقة لا تزال غير واضحة.
في دراسة جديدة، تم اختبار نماذج مختلفة باستخدام نموذج يتضمن مرحلتين للاختيار، حيث يقوم النموذج أولاً بالإجابة ثم بالإبلاغ عن مستوى الثقة، قبل أن يقرر ما إذا كان سيقدم الإجابة للمستخدم أم لا.
أظهرت النتائج أن التقارير الشفوية للثقة كانت تتنبأ بشكل أكبر باتخاذ قرار الالتزام أو الامتناع عن تقديم الإجابة مقارنة بدقة تلك الإجابة. ولكن عند النظر إلى العوامل الأخرى، بدا أن التجاوز عن هذه التقارير الشفوية قد قلل من ارتباطها بالصواب، مما يقترح أن الثقة اللفظية قد تكون أكثر تعبيراً عن الاستعداد النفسي للالتزام بقرار ما.
عموماً، توصل الباحثون إلى وجود فوارق واضحة بين الثقة اللفظية وقيم الاحتمالية. فعلى الرغم من أن الاحتمالات الأساسية تتبع أدلة الإجابة، إلا أن الثقة اللفظية تظهر كمعيار أكثر سلوكية، مما يعزز ضرورة إعادة تقييم كيفية اعتبار هذه التقارير كمعايير موثوقة في تجارب الذكاء الاصطناعي.
في ضوء هذه الاكتشافات، كيف ترى دور الثقة المعلنة في نماذج الذكاء الاصطناعي؟ هل تعتقد أنها قادرة على التأثير على دقة النتائج المعروضة؟ شاركونا آراءكم في التعليقات.
هل يمكن اعتبار الثقة في نماذج اللغة الكبيرة مقياساً حقيقياً للصواب أم مجرد وهم؟
تشير الأبحاث الجديدة إلى أن تقارير الثقة في نماذج اللغة الكبيرة (LLMs) تعكس الالتزام أكثر من دقة الإجابة. وهي تدعو لإعادة التفكير في كيفية تقييم موثوقية هذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
