في دراسة حديثة على أدوات إثبات النظرية المدربة باستخدام تقنية التعلم المعزز (Reinforcement Learning)، تم اكتشاف ظاهرة مثيرة تتعلق بتنوع الاستنتاج خلال مرحلة الاستنتاج. أظهرت نتائج الاختبارات، التي أجريت باستخدام نموذج DeepSeek-Prover-V1.5-RL، أن توسيع الميزانية العشوائية (i.i.d. sampling budget) من 32 إلى 64 لم يؤدِّ إلى حل أي نظريات إضافية، حيث بقيت النتائج ثابتة عند 42 نظرية تم حلها.

ومع ذلك، فإن استخدام جدول زمني ثابت يتضمن 15 هيكلًا تكتيكيًا أدى إلى تحسين ملحوظ بنسبة 45% عندما تم ضبط الميزانية العشوائية إلى 16. استنادًا إلى متوسط زيادة حوالي 12.3 نظرية، أظهر هذا التحسين استقرارًا عبر عدة تجارب.

وعلى صعيد آخر، تم تطبيق تقنيات التحكم في التنوع لاستبعاد تأثيرات متنوعة، حيث أثبتت أن هياكل التكتيك كانت فعالة، بينما كانت إعادة صياغة الجمل في النتائج مكافئة للحد الأدنى، في حين أدت التعليقات غير ذات الصلة إلى تدهور الأداء.

تُظهر النتائج أن هذا الظاهرة خاصة بالتعلم المعزز؛ حيث لم يتمكن النموذج V1.5-Base من إثبات أي نظريات بغض النظر عن الاستراتيجيات المستخدمة. وتم التعرف على التعلم المعزز كمرحلة تُركّز على إنشاء قدرات الإثبات، بينما يسهم نموذج DeepSeek-Prover-V2-7B المدرب على التعلم المعزز في حل ثلاث نظريات إضافية تُعتبر خارج نطاق القاعدة، على عكس نموذج Goedel-Prover المدرب بطريقة التعلم السلوكي، الذي أظهر تدهورًا في الأداء.

تشير هذه النتائج إلى أن التنوع الهيكلي أثناء الاستنتاج يمثل محورًا فعالًا ورخيصًا يمكن أن يسهم بشكل كبير في تحسين أداء أدوات الإثبات المدربة باستخدام التعلم المعزز، وذلك دون الحاجة إلى زيادة حجم النموذج أو تكلفة التدريب.