في عالم الروبوتات البيوميميتية خاصة تحت الماء، تواجه التقنيات التقليدية لتعلم السياسات (Policy Learning) تحديات جوهرية تتعلق باتخاذ القرارات على المدى الطويل، والرؤية الجزئية، وتنسيق العمليات بين الروبوتات. وقد تم تقديم إطار عمل مبتكر يسمى تحسين السياسات النسبية لمجموعات الوكلاء المعتمد على Mamba (M$^{2}$GRPO) لمواجهة هذه القضايا.

تقوم هذه الطريقة بتأسيس سياسة Mamba الجديدة التي تستفيد من تاريخ المشاهدات لاستنتاج الاعتماد الزمني الطويل، كما تستخدم ميزات ارتباطية تعتمد على الانتباه لتعزيز التفاعلات بين الوكلاء (Agents). تُنتج هذه الطريقة إجراءات مستمرة بحدود من خلال أخذ عينة غاوسية طبيعية.

علاوة على ذلك، يتم تحسين توزيع الاعتمادات دون التضحية بالاستقرار، حيث تُحصل المزايا النسبية للمجموعة من خلال تطبيع المكافآت عبر الوكلاء ضمن كل حلقة تدريب، ويتم تحسينها عبر امتداد متعدد الوكلاء لطريقة GRPO، مما يقلل بشكل ملحوظ من الحاجة إلى موارد التدريب.

أظهرت المحاكاة والاختبارات التجريبية في الواقع القدرة العالية لهذه التقنية عبر مقاييس الفرق واستراتيجيات الهروب (Evader Strategies)، حيث تفوقت M$^{2}$GRPO بانتظام على MAPPO والطرق القابلة للتكرار في كل من معدل النجاح وكفاءة المطاردة.

بفضل هذا الإطار المبتكر، تبدو آفاق التعاون بين الروبوتات البيوميميتية تحت الماء واعدة للغاية، وتوفر حلاً عمليًا وقابلًا للتوسع لمواجهة التحديات في المطاردات.