في عالم التعلم المعزز (Reinforcement Learning) القائم على نماذج التفكير الكبيرة (Large Reasoning Models)، عانت العديد من الطرق المنتشرة من عدم الكفاءة في التدريب على التوجيهات المتجانسة الإيجابية. ولكن، هل سمعتم عن طريقة 'Miner'؟ هذه الطريقة المبتكرة تمثل حلاً بسيطًا ولكنه قوي؛ إذ تعيد توظيف عدم اليقين الداخلي للسياسات كإشارة مكافأة ذاتية، من دون الحاجة إلى إشراف خارجي أو نماذج مساعدة إضافية أو حتى تكاليف استنتاجية.
تقدم 'Miner' ابتكارين رئيسيين يقدمان نقلة نوعية في منهج التعلم المعزز: الأول هو آلية توزيع ائتمان مقطعية تركز على التوكنات الحيوية، حيث تعزز التدرجات على التوكنات غير المؤكدة بينما تقلل من تأثير التوكنات المفرطة الثقة. الثاني هو التعديل التكيفي للميزة، الذي يدمج بسلاسة بين المكافآت الداخلية والمثبتة.
عند تقييمها عبر ستة معايير تفكير على نماذج 'Qwen3-4B' و'Qwen3-8B'، حققت 'Miner' أداءً رائعًا يستحق الإشادة، منها تحقيق زيادات تصل إلى 4.58 في Pass@1 و6.66 في Pass@K مقارنةً بطريقة 'GRPO'. كما أن مقارنة 'Miner' بأساليب أخرى تهدف إلى تعزيز الاستكشاف تكشف عن تفوقها بالاعتماد على الابتكارات الجديدة.
هذا يدل على أن استغلال عدم اليقين الكامن ليس فقط ضروريًا، بل كافٍ لتحقيق تدريب فعال وقابل للتوسع لنماذج التفكير. للمزيد من المعلومات، يمكنكم زيارة [الرابط](https://github.com/pixas/Miner). ما رأيكم في هذه الطريقة الجديدة؟ شاركونا آراءكم في التعليقات!
اكتشاف قوة التعدين الداخلي: ثورة في تدريبات التعلم المعزز الفعال!
تمتاز طريقة 'Miner' ببساطتها وفاعليتها، حيث تستغل عدم اليقين الداخلي في نماذج التعلم المعزز لمكافأة ذاتية بدون إشراف خارجي. نتائجها تعكس تحسنًا ملحوظًا في الأداء مقارنةً بالأساليب الأخرى.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
