في دراسة حديثة نُشرت على arXiv، تم تسليط الضوء على ظاهرة مثيرة للاهتمام تتعلق بنماذج اللغة، حيث تظهر تلك النماذج أعلى مستويات الثقة عندما تتخذ قرارات خاطئة وتقوم بتوليد معلومات غير دقيقة. متى تتجاوز الثقة حدودها الطبيعية لتصبح فخًا يوقع المستخدمين في المتاهات؟
أظهرت النتائج المستخلصة من أربع عائلات نموذجية (OLMo-3، Llama-3.1، Qwen3، وMistral) أن هناك ارتباطًا عكسيًا بين الثقة الذاتية للنماذج والدقة، حيث تراوحت قيمة AUC من 0.28 إلى 0.36، في حين أن 0.5 تشير إلى التخمين العشوائي.
هذا السلوك ليس نتيجة لثغرة في القدرة، بل لثغرة في الملاحظة. فعندما يراقب المشرف مخرجات النموذج فقط عن طريق النص، يصبح من المستحيل على أي نظام مراقبة تمييز المخرجات الصادقة عن المعلومات المفبركة. في هذه الدراسة، تم إثبات نتيجتين رئيسيتين: أولهما أن أي سياسة تعتمد فقط على الاستفسار لا يمكنها تحقيق النزاهة المعرفية في حالات العالم الغامضة؛ وثانيهما أنه لا يوجد خوارزمية تعلم تحسين المكافآت من إشراف نصي يمكن أن تصل إلى سلوك صادق.
لحل هذه الإشكالية، تم تطوير واجهة استدلال تُسهل تصدير المنتجات الحسابية مثل الإنتروبيا لكل رمز وتوزيعات الاحتمالية، والتي ترتبط بنجاح المنهجيات التدريبية. وقد أظهرت قياسات الإنتروبيا نتائج مثيرة، حيث حققت AUC مجمعة بلغ 0.757، متفوقة على جميع الأسس النصية الأخرى في مستويات مختلفة من الميزانية.
بشكل إجمالي، تساهم هذه النتائج في فهم كيفية استخدام الموارد بطريقة عملية لبناء أنظمة أفضل، حيث تقدم خريطة تحدد العلاقة بين ميزانية التحقق ودقة الاكتشاف.
ما رأيكم في زخرفة الثقة بمخرجات نماذج الذكاء الاصطناعي؟ شاركونا في التعليقات.
الاكتشاف المعرفي في نماذج اللغة: كيف يمكن أن تكون الثقة خادعة؟
تسلط دراسة جديدة الضوء على أن نماذج اللغة قد تكون أكثر ثقة عندما تقوم بتوليد معلومات غير صحيحة. ويظهر البحث كيف أن الثقة الذاتية للنماذج ترتبط عكسيًا مع دقتها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
