شهدت نماذج اللغة الحديثة تطورات ملحوظة في الآونة الأخيرة، ولا سيما تلك الخاصة بالتفكير المنطقي. تقنيات التعلم المعزز (Reinforcement Learning) قد غيّرت قواعد اللعبة في هذا المجال. غالبًا ما تعتمد هذه النماذج على خوارزمية تحسين السياسة النسبية الجماعية (Group Relative Policy Optimization - GRPO) أو تعديلات عليها لضبط أداء النماذج.
المشكلة تكمن في أن الإجابة النهائية لا يمكن التحقق منها، ولا يمكن تعيين المكافأة، إلا بعد إكمال سلسلة التفكير (Chain-of-Thought - CoT)، مما يجعلها معضلة المكافآت المتأخرة (Delayed Reward Problem). وتعاني طرق مثل GRPO من اختلالات كبيرة في التقدير بسبب اعتمادها على طرق مونت كارلو (Monte Carlo Methods) التي تُعتبر مُعرضة لتفاوت عالٍ.
هنا تأتي الابتكارات التي تم إدخالها عبر تقنية RREDCoT (Reward REDistribution for Chain of Thoughts). هذه التقنية تتيح إعادة توزيع المكافآت من خلال تعيين رصيد أعلى للأجزاء المهمة من سلسلة التفكير التي تؤدي إلى الحل المطلوب. وكما هو متوقع، يمكن استخدام أخذ عينات مونت كارلو لتقديم تقدير غير متحيز لقيم الحالات الوسيطة، ولكن العبء الحسابي الناتج يجعلها غير ملائمة لتعيين الرصيد خلال التدريب في سياقات طويلة وبدقة عالية.
تستفيد طريقة RREDCoT من النموذج ذاته لتقدير إعادة توزيع المكافآت بشكل مثالي، دون الحاجة إلى توليد معلومات إضافية. لقد أظهرنا فوائد هذه الطريقة مقارنةً بأخذ عينات مونت كارلو وطرق النسبة الأخرى. كما قمنا بتحليل عدة جوانب مهمة في بناء إعادة التوزيع، مثل تقسيم سلسلة التفكير وتقدير قيمة الحالة، مما يفتح آفاقا جديدة لتعزيز أداء الذكاء الاصطناعي.
RREDCoT: إعادة توزيع المكافآت لتحسين نماذج التفكير المنطقي!
اكتشف كيف يمكن لـ RREDCoT تعزيز نماذج التفكير المنطقي عبر إعادة توزيع المكافآت بشكل مبتكر، مما يحسن النتائج ويعالج قضايا التأخير في المكافآت. هذه التقنية تمهد الطريق نحو تحسينات ملحوظة في أداء الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
