في عالم الروبوتات والطائرات دون طيار (UAV)، أثبت التعلم المعزز العميق (Deep Reinforcement Learning) أنه يقدم إمكانيات هائلة لتمكين هذه الأنظمة من إتمام مهام التنقل المعقدة بشكل مستقل. ولكن، تكمن التحديات الكبيرة في الاعتماد على الوظائف المكافئة المصممة يدويًا وإعادة الضبط المتكررة، مما يتطلب وقتًا طويلاً ولا يضمن نجاحًا عاليًا في المهام المطلوبة.

تقدم ورقة البحث الجديدة تقنية AgenticRL، وهي إطار عمل لتعلم تعزيز ذاتي يركز على زيادة استقلالية تصميم المكافآت، وتحسين السياسات، وتطبيقها في العالم الحقيقي بالنسبة لمهام التنقل عبر الطائرات غير المأهولة. يعمل AgenticRL من خلال استخدام نموذج مُولّد متعدد الوسائط (multimodal generative pre-trained transformer) ليتفاعل مع معلومات المهمة والمشاهد البصرية، مما يسمح له بإنشاء وظائف مكافآت محددة، وتدريب السياسات باستخدام خوارزمية تحسين السياسة القريبة (Proximal Policy Optimization - PPO).

بعد التدريب، يقوم AgenticRL بدور الناقد من خلال تقييم السياسة المدربة، مما يتيح له تشخيص الأخطاء وتحديد أنماط الفشل. هذا يُمكّن النظام من تحسين وظائف المكافآت بشكل دوري في عملية مغلقة للتطوير الذاتي. ولزيادة استفادته خلال مرحلة الاستدلال، يستخدم AgenticRL الصور الواقعية ومعلومات المهام بلغة طبيعية لتحديد السيناريو النشط واختيار السياسة المناسبة للتنفيذ.

تم تقييم الإطار على مهام تنقل متعددة، بما في ذلك تخطي البوابات، وتجنب العقبات، وعبور الحواجز، ومتابعة المسارات، وتعلم سلوك الحركة. وقد أظهرت النتائج التجريبية أن عملية التحسين المغلقة تُحسن سلوك السياسة بمعدل بلغ 71% مقارنةً بالمكافآت الأولية. كما أثبتت الدراسة إمكانية النقل من المحاكاة إلى العالم الحقيقي (sim-to-real transfer)، محققة معدل نجاح في العالم الحقيقي بلغ 91% ودقة نقل من المحاكاة إلى الواقع بلغت 94%.

تأتي هذه الإنجازات لتسلط الضوء على الإمكانيات الكبيرة للذكاء الاصطناعي في مجالات جديدة ومثيرة، مما يعد بتغيير جذري في كيفية عمل الطائرات غير المأهولة في المستقبل.