في [دراسة](/tag/دراسة) حديثة على [أدوات إثبات النظرية](/tag/[أدوات](/tag/أدوات)-إثبات-النظرية) المدربة باستخدام [تقنية](/tag/تقنية) [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) ([Reinforcement Learning](/tag/reinforcement-learning))، تم [اكتشاف](/tag/اكتشاف) ظاهرة مثيرة تتعلق بتنوع [الاستنتاج](/tag/الاستنتاج) خلال مرحلة [الاستنتاج](/tag/الاستنتاج). أظهرت نتائج الاختبارات، التي أجريت باستخدام [نموذج](/tag/نموذج) [DeepSeek](/tag/deepseek)-Prover-V1.5-RL، أن توسيع الميزانية العشوائية (i.i.d. sampling budget) من 32 إلى 64 لم يؤدِّ إلى حل أي نظريات إضافية، حيث بقيت النتائج ثابتة عند 42 [نظرية](/tag/نظرية) تم حلها.
ومع ذلك، فإن استخدام جدول زمني ثابت يتضمن 15 هيكلًا تكتيكيًا أدى إلى [تحسين](/tag/تحسين) ملحوظ بنسبة 45% عندما تم ضبط الميزانية العشوائية إلى 16. استنادًا إلى متوسط زيادة حوالي 12.3 نظرية، أظهر هذا [التحسين](/tag/التحسين) استقرارًا [عبر](/tag/عبر) عدة [تجارب](/tag/تجارب).
وعلى صعيد آخر، تم تطبيق [تقنيات التحكم](/tag/[تقنيات](/tag/تقنيات)-[التحكم](/tag/التحكم)) في [التنوع](/tag/التنوع) لاستبعاد [تأثيرات](/tag/تأثيرات) متنوعة، حيث أثبتت أن هياكل التكتيك كانت فعالة، بينما كانت إعادة صياغة الجمل في النتائج مكافئة للحد الأدنى، في حين أدت [التعليقات](/tag/التعليقات) غير ذات الصلة إلى تدهور [الأداء](/tag/الأداء).
تُظهر النتائج أن هذا الظاهرة خاصة بالتعلم المعزز؛ حيث لم يتمكن النموذج V1.5-Base من إثبات أي نظريات بغض النظر عن [الاستراتيجيات](/tag/الاستراتيجيات) المستخدمة. وتم [التعرف](/tag/التعرف) على [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) كمرحلة تُركّز على إنشاء قدرات الإثبات، بينما يسهم [نموذج](/tag/نموذج) [DeepSeek](/tag/deepseek)-Prover-V2-7B المدرب على [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) في حل ثلاث نظريات إضافية تُعتبر خارج نطاق القاعدة، على عكس [نموذج](/tag/نموذج) Goedel-Prover المدرب بطريقة [التعلم](/tag/التعلم) السلوكي، الذي أظهر تدهورًا في [الأداء](/tag/الأداء).
تشير هذه النتائج إلى أن [التنوع](/tag/التنوع) الهيكلي أثناء [الاستنتاج](/tag/الاستنتاج) يمثل محورًا فعالًا ورخيصًا يمكن أن يسهم بشكل كبير في [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [أدوات](/tag/أدوات) الإثبات المدربة باستخدام [التعلم](/tag/التعلم) المعزز، وذلك دون الحاجة إلى زيادة حجم النموذج أو [تكلفة التدريب](/tag/تكلفة-[التدريب](/tag/التدريب)).
اكتشافات مثيرة حول تنوع الاستنتاج في إثباتات النظرية المدربة باستخدام التعزيز
توصل الباحثون في دراسة جديدة إلى أن أدوات إثبات النظرية المدربة باستخدام التعزيز تواجه تحديات في تنوع الاستنتاج، ويمكن تحسين أدائها بشكل ملحوظ من خلال استخدام هياكل تكتيكية ثابتة. هذه النتائج تثير تساؤلات حول كيفية توظيف أساليب جديدة لتعزيز الأداء في هذا المجال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
