تُعد إشارات المكافأة فعالة أمرًا بالغ الأهمية في مجال تعلم التعزيز (Reinforcement Learning) حيث تواجه الأنظمة تحديات عديدة، خاصةً عند التعامل مع مهام التفكير المعقدة. قد تمثل الطرق التقليدية لتحسين المكافآت التي تعتمد على بحث خالي من المشتقات تحديًا كبيرًا، إذ تعامل وظائف المكافأة كصندوق أسود، مما يحرم الأنظمة من الاستفادة من الديناميكيات السببية بين تعديلات هيكل المكافأة وأداء السياسات.
في هذا السياق، نقدم تقنية جديدة تُعرف بتعلم التعزيز التطوري القابل للتفريق (Differentiable Evolutionary Reinforcement Learning - DERL). هذه التقنية تقوم على إطار عمل ثنائي المستويات لتسهيل اكتشاف هياكل المكافأة المثلى بشكل تلقائي. يستخدم DERL مُحسنًا ميتا (Meta-Optimizer) يعمل على تطوير وظيفة المكافأة من خلال تركيب عناصر هيكلية بسيطة لتوجيه سياسة داخلية.
ما يميز DERL هو إدخاله لخاصية التفريق في عملية التحسين الميتا، حيث يحدث تحديث لمُحسن الميتا باستخدام تدرجات السياسة المستمدة من أداء التحقق الداخلي. هذا الإجراء يوفر للنظام تغذية راجعة كثيفة وقابلة للتنفيذ.
أُثبتت فعالية DERL عبر عدة مجالات تفكير متنوعة، مثل الوكيل المتضمن (ALFWorld)، والمحاكاة العلمية (ScienceWorld)، والتفكير الرياضي (GSM8K، MATH). أظهرت النتائج أن DERL يحقق أداءً متفوقًا على مؤشرات الوكلاء، متفوقاً بشكل ملحوظ على الأساليب غير القابلة للتفريق، خاصةً في تعميم التطبيقات خارج مجموعة البيانات.
علاوة على ذلك، أكدت تحليلات المسار أن DERL تلتقط الهيكل السببي الداخلي للمهام، مما يمكن من تحقيق توافق ذاتي مستقل، يعزز من قدرات الوكلاء على التحسين الذاتي.
تعلم التعزيز التطوري القابل للتفريق: ثورة جديدة في تحسين المكافآت!
تقدم تقنية تعلم التعزيز التطوري القابل للتفريق (DERL) نهجًا مبتكرًا في تحسين إشارات المكافأة، مما يسهم في تعزيز الأداء في مهام التفكير المعقدة. يستفيد هذا النظام من التعلم التلقائي للاستجابة للتحديات بكفاءة وضوح.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
