في [دراسة](/tag/دراسة) حديثة على [أدوات إثبات النظرية](/tag/[أدوات](/tag/أدوات)-إثبات-النظرية) المدربة باستخدام [تقنية](/tag/تقنية) [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) ([Reinforcement Learning](/tag/reinforcement-learning))، تم [اكتشاف](/tag/اكتشاف) ظاهرة مثيرة تتعلق بتنوع [الاستنتاج](/tag/الاستنتاج) خلال مرحلة [الاستنتاج](/tag/الاستنتاج). أظهرت نتائج الاختبارات، التي أجريت باستخدام [نموذج](/tag/نموذج) [DeepSeek](/tag/deepseek)-Prover-V1.5-RL، أن توسيع الميزانية العشوائية (i.i.d. sampling budget) من 32 إلى 64 لم يؤدِّ إلى حل أي نظريات إضافية، حيث بقيت النتائج ثابتة عند 42 [نظرية](/tag/نظرية) تم حلها.

ومع ذلك، فإن استخدام جدول زمني ثابت يتضمن 15 هيكلًا تكتيكيًا أدى إلى [تحسين](/tag/تحسين) ملحوظ بنسبة 45% عندما تم ضبط الميزانية العشوائية إلى 16. استنادًا إلى متوسط زيادة حوالي 12.3 نظرية، أظهر هذا [التحسين](/tag/التحسين) استقرارًا [عبر](/tag/عبر) عدة [تجارب](/tag/تجارب).

وعلى صعيد آخر، تم تطبيق [تقنيات التحكم](/tag/[تقنيات](/tag/تقنيات)-[التحكم](/tag/التحكم)) في [التنوع](/tag/التنوع) لاستبعاد [تأثيرات](/tag/تأثيرات) متنوعة، حيث أثبتت أن هياكل التكتيك كانت فعالة، بينما كانت إعادة صياغة الجمل في النتائج مكافئة للحد الأدنى، في حين أدت [التعليقات](/tag/التعليقات) غير ذات الصلة إلى تدهور [الأداء](/tag/الأداء).

تُظهر النتائج أن هذا الظاهرة خاصة بالتعلم المعزز؛ حيث لم يتمكن النموذج V1.5-Base من إثبات أي نظريات بغض النظر عن [الاستراتيجيات](/tag/الاستراتيجيات) المستخدمة. وتم [التعرف](/tag/التعرف) على [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) كمرحلة تُركّز على إنشاء قدرات الإثبات، بينما يسهم [نموذج](/tag/نموذج) [DeepSeek](/tag/deepseek)-Prover-V2-7B المدرب على [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) في حل ثلاث نظريات إضافية تُعتبر خارج نطاق القاعدة، على عكس [نموذج](/tag/نموذج) Goedel-Prover المدرب بطريقة [التعلم](/tag/التعلم) السلوكي، الذي أظهر تدهورًا في [الأداء](/tag/الأداء).

تشير هذه النتائج إلى أن [التنوع](/tag/التنوع) الهيكلي أثناء [الاستنتاج](/tag/الاستنتاج) يمثل محورًا فعالًا ورخيصًا يمكن أن يسهم بشكل كبير في [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [أدوات](/tag/أدوات) الإثبات المدربة باستخدام [التعلم](/tag/التعلم) المعزز، وذلك دون الحاجة إلى زيادة حجم النموذج أو [تكلفة التدريب](/tag/تكلفة-[التدريب](/tag/التدريب)).