تظل القدرة على العمومية في التعلم العميق المعزز (Deep Reinforcement Learning - DRL) إحدى أكبر التحديات التي تواجه الباحثين. وفي هذا الإطار، يستكشف الدراسة الجديدة المعنونة "التعلم للبحث والبحث للتعلم" كيفية استخدام أساليب التخطيط التقليدي لمعالجة هذه القضية المعقدة.

تجري الدراسة ضمن بيئات ذات مكافآت نادرة تؤكد أن الاستكشاف التقليدي عبر التعلم المعزز قد لا يكون فعّالًا. في العادة، تعتمد طرق التخطيط المستندة إلى التعلم على استعراض خبرات متخصصة أو إعادة تسمية النتائج المتأخرة أو حتى السير بطريقة عشوائية من حالة الهدف. تلك الطرق، على الرغم من فعاليتها في بعض السياقات، تكافح في حل المشكلات المعقدة.

في المقابل، تستخدم أساليب التخطيط المعتمدة على البحث الأفضل، مثل خوارزمية A-star، كأدوات قوية لحل المشكلات من الصفر.

عرض الباحثون إطار عمل جديد يُدعى WA-star، والذي يجمع بين التخطيط القائم على القيم والشبكات العصبية الرسومية الارتباطية (Relational Graph Neural Networks). حيث يقوم هذا النظام بتوجيه البحث، مما يؤدي إلى تحسين النتائج. في هذه الحلقة المعتمدة على التعلم، يتم تحديث خوارزمية الإرشاد من خلال آلية التعلم بالتحصيل Q-learning، مما يمكن النموذج من التعامل بفعالية مع حالات جديدة دون الحاجة إلى البحث التقليدي.

أظهرت الاختبارات أن النظام لديه قدرة مذهلة على التعميم، على سبيل المثال، تمكنت الخوارزميات المدربة على مشكلات Blocksworld مع عدد أقل من 30 قطعة من حل مشكلات تضم 488 قطعة بنجاح دون الحاجة للبحث.

تظل النتائج واعدة، وتفتح آفاقاً جديدة لفهم كيفية عمل التعلم العميق في سياقات مختلفة، مما يمكّن التقنيات من العمل بكفاءة في المعدات المعقدة دون الاعتماد على المعرفة المباشرة.