يعتبر تعزيز التعلم بالمنهاج (Curriculum Reinforcement Learning - CRL) واحدًا من أهم التطورات في عالم الذكاء الاصطناعي، حيث يسعى الوكلاء لتجميع المعرفة بصورة تدريجية عبر سلسلة من المهام. الهدف من هذه العملية هو استخدام تلك المعرفة المتراكمة لحل مهمة صعبة أخيرًا. في السنوات الأخيرة، انتقلت الدراسات إلى استكشاف أساليب تلقائية لتوليد المنهج، وهو ما يفتح آفاقًا جديدة أمام الباحثين والممارسين.

تتطرَّق العديد من الأبحاث الرائدة للتعامل مع كيفية تسلسل المهام الموجهة للموظفين، لكن الدراسات الحديثة قدمت مقاربة جديدة من خلال الإبدال القائم على المهام. في هذه المقاربة، يتم توليد مهام وسيطة بطريقة أوتوماتيكية عن طريق حسابات بين توزيع المهام الأولية وتوزيع المهام المستهدفة، مستخدمين معايير قياس المسافة بين المهام.

ومع ذلك، تظهر التحديات خاصة في المهام الملاحية المعقدة، حيث تؤدي المساحة غير الإقليدية للمهام إلى عدم دقة هذه الافتراضات. هنا يأتي دورنا في تقديم نهج جديد يعتمد على تعلم تمثيل المهام القابل للقياس. لقد أعدنا صياغة الفضاء المؤدي للمهام إلى فضاء كامن معتمدين على هيكلية نموذج محاكاة تباين (Variational Autoencoder) التي تقوم بتشفير المكافآت والمعاملات الحركية. من خلال هذا النموذج، نستطيع الحصول على تمثيل للمهمة يضمن قياس مدى تشابه المهام، حيث يعكس الاقتراب في التمثيلات التوائية العلاقة الكامنة بين المهام.

بناءً على ما تم تعلمه من تمثيل المهام، طورنا آلية جديدة لتوليد المنهج أوتوماتيكيًا، مما يُمكن من إنتاج مهام جديدة تشبه الهدف بشكل أكبر. لقد قمنا بتقييم طريقتنا عبر مجموعة متنوعة من التحديات في المهام الملاحية، وأظهرت نتائج التجربة أن النهج المقترح يتجاوز أساليب CRL المعتمدة على الإبدال وشبكات الخصومة التوليدية (Generative Adversarial Networks) في الأداء.

إن هذا البحث يُعتبر خطوة هامة في تعزيز فلسفة التعلم بالمنهاج، مما يفتح الآفاق واسعة لتحسين أساليب التعلم الذاتي للذكاء الاصطناعي، متيحًا المزيد من الإمكانيات والتطبيقات المستقبلية.