تعد الاختبارات متعددة الخيارات (Multiple Choice Question - MCQ) واحدة من أكثر الطرق شيوعًا لتقييم أداء نماذج اللغات الضخمة (Large Language Models - LLMs). فإلى جانب فحص صحة الإجابة المختارة، تأخذ التقييمات في اعتبارها أيضًا مستوى الثقة الذي يمنحه النموذج للإجابة، وهو ما يعكس الاحتمالية المرتبطة بإجابته.
في دراسة حديثة، تم البحث في تأثير طريقة الإجابة على ثقة نماذج اللغات الضخمة، سواء كان ذلك عن طريق الإجابة المباشرة أو التفكير قبل الرد. أظهرت التجارب، التي تم إجراؤها على مجموعة من المعرفة العامة تغطي 57 موضوعًا وسبع نماذج لغوية ضخمة، أن النماذج بشكل منهجي تكون أكثر ثقة عندما تقدم تفكيرها قبل الإجابة. الأهم من ذلك، أن زيادة الثقة كانت أكبر عندما كانت الإجابة المختارة خاطئة مقارنةً عندما كانت صحيحة.
نفترض أن عملية التفكير تعدل الاحتمالات الخاصة بالرموز، حيث يعتمد التنبؤ بالجواب النهائي بشكل مشترك على السؤال والتفكير الذاتي الذي يولده النموذج. هذا الأمر يؤدي إلى تقديرات مبالغ فيها لمستوى الثقة. باستخدام مقاييس المعايرة القياسية مثل خطأ المعايرة المتوقع (Expected Calibration Error) ودرجة بريير (Brier score)، توضح الأبحاث أن دفع سلسلة الأفكار (Chain-of-Thought - CoT) يسهم في تدهور المعايرة من خلال زيادة نسبة الإجابات الخاطئة ذات الثقة العالية.
تشير هذه النتائج إلى أنه في سياقات تقييم الأسئلة متعددة الخيارات، يجب التعامل بحذر مع الاحتمالات المقدرة من قبل النماذج اللغوية، وذلك عند استخدامها كأساس للتقييم والآليات الفكرية.
في عالم يتزايد فيه استخدام نماذج الذكاء الاصطناعي، كيف يمكننا ضبط ثقتنا بهذه النماذج عندما تصدر إجابات خاطئة؟
ثقة كبيرة في الذكاء الاصطناعي: كيف تؤثر طريقة التفكير على أداء نماذج اللغات الضخمة؟
تكشف دراسة جديدة عن تأثير نهج التفكير على ثقة نماذج اللغات الضخمة عند الإجابة على الأسئلة متعددة الخيارات، حيث تزيد الثقة خاصةً عند تقديم إجابات خاطئة. هل تعتبر هذه السمة إيجابية أم سلبية؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
