في عالم التخطيط للبنية التحتية، تمثل مشكلة تحديد مواقع المنشآت في أقصى مغطٍ (Maximal Covering Location-Interdiction Problem - MCLIP) تحديًا تقنيًا يتطلب حلولاً مبتكرة. تعتمد هذه المشكلة على تحسين مزدوج المستويات، حيث يتوجب على المستوى العلوي تحديد مواقع المنشآت لتعظيم التغطية، بينما يسعى المستوى السفلي لتنفيذ عمليات الحجب بهدف تقليل هذه التغطية.

وتمثل هذه المشكلة تعقيدًا رياضياً هائلًا، مما يجعل الأساليب التقليدية غير فعالة. هنا تأتي الحلول المستندة إلى التعلم العميق.

نقترح إطار عمل جديد يُعرف بالتعلم العميق العدائي (Dual-Agent Deep Reinforcement Learning - DADRL)، حيث يعمل وكيل الموقع على تدريب نفسه بالتوازي مع وكيل الحجب. هذا الأسلوب ليس فقط مبتكرًا، لكنه أيضًا يُظهر تفاعلًا ديناميكيًا قويًا بين المستويين.

تتضمن مساهماتنا ثلاث نقاط رئيسية:
1. يتم تدريب وكيل الموقع بشكل متزامن مع وكيل الحجب المتطور، مما يساعده على فهم التفاعل الديناميكي بين المستوى العلوي والسفلي.
2. لتعظيم قدرة وكيل الحجب، قدمنا استراتيجية استنتاج قائمة على النموذج الوصفي، حيث يُستخدم وكيل الحجب المدرب كوسيلة لضمان جودة القرارات التي يتخذها وكيل الموقع.
3. تُظهر التجارب الواسعة على datasets الصناعية والعالمية أن نهجنا يحقق كفاءة حسابية أفضل مع الحفاظ على جودة الحلول مقارنة بالأساليب التقليدية الأخرى.

علاوة على ذلك، يمتاز إطار العمل DADRL بكونه مستقلًا عن الهياكل الشبكية، مما يفتح الآفاق لحل مشكلات تحسين مزدوج المستوى الأخرى بفضل نموذج التعلم العدائي القوي الذي نعتمده.