شهدت أساليب التعلم المعزز (Reinforcement Learning) تقدمًا كبيرًا في الأساليب القائمة على مكافآت فلسفية. ولقد أظهرت هذه الأساليب فاعلية خاصة عند تدوين النماذج اللغوية (Language Models) لما بعد التدريب. ومع ذلك، فإن التحدي الأكبر يكمن في المهام التي تتطلب التفكير المنطقي مثل حل المسائل الرياضية، حيث غالبًا ما تقدم المكافآت الناتجة (Binarized Outcome Rewards) تغذية راجعة محدودة حول خطوات التفكير الوسيطة. بينما حاولت بعض الدراسات التركيز على تقدير الجودة العامة للتفكير، لا يزال الأمر غير واضح فيما إذا كانت هذه المكافآت تعكس موثوقية جودة التفكير خطوة بخطوة.
في هذه الدراسة، ننظر إلى التفكير كعملية منظمة، ونعرض نموذج TACReward، الذي يمكن دمجه بسلاسة في أساليب مكافآت الفقرات دون الحاجة إلى تكاليف إضافية للتعليقات البشرية أو تعديلات هيكلية. يقوم نموذج TACReward بجمع الانحرافات الهيكلية خطوة بخطوة بين تفكير المعلم (Teacher) والنموذج (Policy) باستخدام تقنيات التعدين العملياتي، وينتج عنه نطاق مكافأة مخرجة (Scalar Output) يتراوح بين [0، 1] للإشارة إلى جودة التفكير.
تظهر التجارب التي تمت على عدة ميزات لتفكير الرياضيات أن دمج TACReward في أساليب المكافآت المحدودة يشجع نموذج السياسة على تحسين الجودة الهيكلية للتفكير. إن هذا يعزز الأداء بشكل مستمر مقارنة بالإطارات الموجودة لمكافآت الفقرات. للذين يرغبون في التعمق أكثر، يمكنكم زيارة الكود والنقاط المرجعية المتاحة للجمهور على GitHub وHugging Face.
تحسين جودة التفكير: نموذج TACReward في التعلم المعزز
تقدم دراسة جديدة نموذج TACReward الذي يعزز جودة عمليات التفكير في مهام الرياضيات، من خلال تقنية التعدين العملياتي. هذا النموذج يساهم في تحسين أداء نماذج التعلم المعزز بشكل ملموس.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
