في عالم الذكاء الاصطناعي، يعد اكتشاف المهارات بدون إشراف (Unsupervised Skill Discovery - USD) أحد المجالات الحيوية التي تسعى لتحقيق تقدم كبير. يقدم البحث الأخير بعنوان SUSD (Structured Unsupervised Skill Discovery) نموذجًا جديدًا يعد ثوريًا في هذا المجال.

تهدف تقنيات USD التقليدية إلى تعلم مجموعة متنوعة من المهارات بشكل تلقائي، دون الاعتماد على مكافآت خارجية، وقد كان أحد الأساليب الشائعة هو تعظيم المعلومات المتبادلة (Mutual Information - MI) بين المتغيرات الكامنة للمهارات والحالات. ومع ذلك، أدى استخدام MI إلى تفضيل المهارات البسيطة والثابتة، مما يحد من اكتشاف سلوكيات ديناميكية وملائمة للمهمة.

لتجاوز هذه القيود، تم تقديم نموذج جديد يسمى اكتشاف المهارات المعزز بالمسافة (Distance-Maximizing Skill Discovery - DSD) الذي يشجع على تطوير مهارات أكثر ديناميكية عبر الاعتماد على المسافات في فضاء الحالة. لكن DSD لا تزال تواجه صعوبات في تشجيع اكتشاف مهارات شاملة تستثمر جميع العوامل أو الكيانات القابلة للتحكم في البيئة.

هنا يأتي دور SUSD، الذي يقدم إطار عمل مبتكر يستفيد من الهيكل التكويني للبيئات من خلال تحليل فضاء الحالة إلى مكونات مستقلة، مثل الكائنات أو الكيانات القابلة للتحكم. يقوم SUSD بتخصيص متغيرات مهارة مختلفة لعوامل متعددة، مما يمنح التحكم الدقيق في عملية اكتشاف المهارات.

كما يتضمن نموذجًا ديناميكيًا يتعقب التعلم عبر العوامل، مما يساعد الوكيل على توجيه تركيزه نحو العوامل التي لم تُستكشف بعد. هذه الطريقة المنظمة تعزز اكتشاف مهارات أغنى وأكثر تنوعًا، وتوفر تمثيلاً مفككًا للمهارات يمكّن من التحكم الدقيق على الكيانات الفردية، مما يسهل تدريب المهام الطفيلية بطريقة فعالة عبر التعلم التعزيزي الهرمي (Hierarchical Reinforcement Learning - HRL).

أظهرت النتائج التجريبية عبر ثلاث بيئات مختلفة، مع وجود عوامل تتراوح من 1 إلى 10، أن طريقة SUSD يمكنها اكتشاف مهارات متنوعة ومعقدة بدون إشراف، متجاوزة بشكل كبير المنهجيات التقليدية في بيئات معقدة. للمطورين المهتمين، الكود البرمجي متاح للجمهور على: https://github.com/hadi-hosseini/SUSD

كيف ترى تأثير هذه الابتكارات على المستقبل القريب للذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!