أجرينا دراسة متعمقة حول قدرات نماذج اللغات الضخمة (LLMs) في التفكير الاحتمالي من خلال اختبارها على مسائل احتمالية متباينة. تمحورت الدراسة حول مجموعتين من البيانات: الأولى تضم تمارين قياسية، والثانية تشتمل على تمارين غير بديهية تهدف إلى تعزيز التفكير الاستدلالي. تم تقييم ثمانية نماذج متقدمة في هذا المجال، وتم اختبارها باستخدام أسلوب "سلسلة الأفكار" (Chain-of-Thought) وبشروط مختلفة.

أظهرت النتائج المثيرة أن النماذج كانت قادرة على تحقيق دقة مذهلة تصل إلى 0.96 في التمارين القياسية، لكنها لم تُظهر نفس المستوى من الأداء في التمارين غير البديهية، حيث تراجعت الدقة إلى 0.59 فقط. بالإضافة إلى ذلك، أظهرت الدراسة دلائل تجريبية على تحيز الرموز (token bias)، حيث انخفض الأداء بنسبة تزيد عن 20% عندما تم استبدال الصيغ المعروفة بصيغ مُخادعة. وللأسف، كان تضمين اقتراحات مضللة في التعزيز (prompt) يقلل الأداء بمعدل يصل إلى 34%، دون أن ينجو أي نموذج من هذه الظاهرة.

تُبرز هذه النتائج أن النماذج الحالية ليست حكماً حقيقياً للتفكير الاحتمالي، رغم نجاحها في حل بعض المسائل الرياضية المتقدمة. لذا، يجب أن نكون حذرين عند الاعتماد عليها في اتخاذ القرارات التي تتطلب الفهم العميق للاعتبارات الاحتمالية.