في الآونة الأخيرة، أصبح التعلم المعزز (Reinforcement Learning) موضوعًا ساخنًا في عالم الذكاء الاصطناعي، حيث يتم استخدام الأساليب القائمة على التحولات مثل (Trajectory Transformers) و(Decision Transformers) لاقتناء استراتيجيات أكثر فعالية. ومع ذلك، هذه الأساليب تركز بشكل أساسي على تعزيز المكافآت فقط، متجاهلةً المتطلبات الزمنية العالية التي يمكن أن تكون حاسمة في بعض السيناريوهات.
في هذا السياق، تبرز دراستنا الجديدة التي تسلط الضوء على إطار عمل عصبي رمزي (Neuro-Symbolic Framework) يدمج المعرفة الخلفية المعبر عنها بلغة المنطق الزمني الخطية على المسارات المنتهية (LTLf) ضمن سياسات التعلم المعزز. يقوم هذا الإطار بتحويل صيغ (LTLf) إلى أوتوماتا محددة (Deterministic Finite Automata) ويضيفها إلى عملية التعلم باستخدام تمثيل قابل للتفريق ودالة خسارة مبنية على المنطق.
تتمثل الابتكارات الرئيسية في استخراج إشارات رضا قابلة للتفريق من تقدم الأوتوماتا واستخدامها كعوامل تنظيمية خلال training. مما يجعل الأسلوب مرنًا ويعمل بكفاءة على مجموعة متنوعة من النماذج المعمارية.
تم تقييم هذا الإطار المقترح في بيئات الملاحة مع مجموعات مواصفات تغطي تركيبات من الخصائص الزمنية للسلامة والوصول. أظهرت النتائج التجريبية أن دمج المعرفة الخلفية لا يؤدي فقط إلى تحسين تحقيق القيود، بل يحافظ أيضًا على عوائد تنافسية مقارنة بالأسس التقليدية.
الحل الذكي لتعزيز التعلم: دمج القيود الزمنية في سياسات التعلم المعزز!
تقدم الدراسة الجديدة إطارًا عملًا ذكيًا يدمج المعرفة الخلفية المبنية على المنطق الزمني مع أساليب التعلم المعزز. هذا الأسلوب يعد بتحقيق توازن بين تحقيق المكافآت ومتطلبات الزمن الثانوي في المسائل المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
