في عالم التعلم المعزز (Reinforcement Learning)، يواجه الوكلاء المستقلون تحديات هائلة عند محاولة التعلم من تجاربهم. تعود المشكلة الأساسية إلى فضاءات الحالة الكبيرة والمعقدة التي تجعل عملية التعلم والتعميم مهمة صعبة. لذلك، يصبح التجريد والتقريب أدوات حيوية لتحقيق النجاح في هذه التطبيقات.

هنا يتدخل التعلم المعزز العلاقي (Relational Reinforcement Learning) ليوفر طريقة مبتكرة للتفكير في الأشياء وعلاقاتها. إطار العمل CARCASS، الذي طوره مارتين فان أوتيرلو، يظهر كيف يمكن التمثيلات المنطقية أن تصف عمليات اتخاذ القرار ماركوف (Markov Decision Processes) ضمن مجالات من الدرجة الأولى. في حين تم تنفيذ CARCASS في الأصل بلغة بروتوكول (Prolog)، يتم استكشاف استخدام البرمجة القائمة على مجموعات الإجابات (Answer-Set Programming) لإنشاء تجريدات قوية من خلال دمج المعرفة المتخصصة.

تعتبر البرمجة القائمة على مجموعات الإجابات لغة نمذجة غنية، وعلى عكس بروتوكول، فهي لغة نموذجية بالكامل تعزز التجريد بأساليب بلاغية وتفعيل معرفي. تم تقييم تطبيقنا القائم على ASP في دراستين لحالتين هما عالم الكتل (Blocks World) وMinigrid. تشير النتائج إلى أن CARCASS مع ASP يوفر نهجًا واعدًا لبناء التجريدات في التعلم المعزز، خاصةً عندما تتوفر المعرفة المجال.

هل أنتم متحمسون لرؤية كيف يمكن لهذه التقنيات أن تساهم في تطوير الوكلاء المستقلين في المستقبل؟ شاركونا آراءكم في التعليقات!