في عصر تتزايد فيه أهمية الطائرات المسيرة (Drones) في مختلف المجالات، يبرز دور التعلم المعزز متعدد العملاء (Multi-Agent Reinforcement Learning أو MARL) كأداة قوية تُعزز من قدرة الأنظمة التعاونية مثل القيادة الذاتية والمدن الذكية. وقد زادت تطبيقات MARL في شبكة الطائرات المسيرة، ولكن تبقى تحديات البيئة الديناميكية وسعة البطارية المحدودة عائقين رئيسيين لتحقيق فعالية أكبر في تنفيذ المهام.

في دراسة جديدة، قام الباحثون بتقديم نموذج MARL واعٍ للطاقة، يعتمد على شبكة العمق Q (Deep Q-Networks أو DQN) ويستند إلى دوال مكافأة فردية تتأثر بتقدم تنفيذ المهام وكمية الطاقة المتبقية لدى الطائرات المسيرة. هذه الدراسة تستند إلى مجموعة من التجارب والمحاكاة التي تقارن النموذج الجديد بنموذج المكافأة المشتركة، بهدف فهم تأثير توزيع الفوائد في نظام التعلم المعزز.

أظهرت النتائج أن النموذج الجديد يحقق معدل نجاح لا يقل عن 80% بغض النظر عن مواقع المهام أو أطوالها. وعندما تزداد كثافة المهام، تتحسن النتائج بشكل ملحوظ، حيث يمكن أن يصل معدل النجاح إلى ما يقارب 100% في حالات الكثافة العالية. ولعل الميزة الأكبر لهذا النموذج تُظهر بوضوح عندما يتوسع نطاق البيئة، حيث يظهر تفوقه على نموذج المكافأة المشتركة في التأقلم مع تغييرات حجم البيئة وعدد العملاء، مما يعزز من كفاءة استهلاك الطاقة.

يعتبر هذا البحث خطوة هامة نحو استخدام تقنيات الذكاء الاصطناعي في مجالات متعددة، بما يسهم في تحقيق تنفيذ مهام أكثر كفاءة من خلال حلول مبتكرة. فهل أنتم مستعدون لاستكشاف المستقبل؟