في ظل التطورات السريعة في مجال التعلم العميق (Deep Learning) وظهور تقنيات التعلم المعزز العميق (Deep Reinforcement Learning)، يواجه الباحثون تحديات جديدة تتعلق بحل مشكلات تحسين المعايير المتعددة (Multi-Objective Combinatorial Optimization Problems - MOCOPs). رغم أن هذه الأساليب أظهرت وعدًا كبيرًا، إلا أن قدرتها على التحمل لم تُستكشف بشكل كامل، خاصةً في ظل توزيعات مشكلات متنوعة ومعقدة.

في هذه الورقة الجديدة، نقدم إطار عمل موحد يركز على تعزيز متانة الحلول المعتمدة على التعلم المعزز العميق لمشكلات تحسين المعايير المتعددة. من خلال هذا الإطار، نطور اعتداءً هجوميًا قائمًا على التفضيلات لإنتاج حالات صعبة تكشف عن نقاط ضعف الخوارزميات، كما نحدد تأثير هذا الاعتداء من خلال التدهور الناتج على جودة واجهة باريدو (Pareto-front).

كما نقدم استراتيجية دفاعية تدمج اختيار التفضيلات الواعية بالصعوبة ضمن تدريب هجومي لتقليل التكيف المفرط على مناطق التفضيل المحدودة وتحسين الأداء خارج نطاق التوزيع.

تظهر النتائج التجريبية على مجموعة من المشكلات الشهيرة مثل مشكلة البائع المتجول متعددة الأهداف (Multi-Objective Traveling Salesman Problem - MOTSP) ومشكلة توصيل المركبات متعددة الأهداف (Multi-Objective Capacitated Vehicle Routing Problem - MOCVRP) ومشكلة الحقيبة متعددة الأهداف (Multi-Objective Knapsack Problem - MOKP) أن طريقة الاعتداء الخاصة بنا تنجح في التعلم من الحالات الصعبة لمختلف الخوارزميات. علاوة على ذلك، تُعزز طريقتنا الدفاعية متانة وعمومية حلول الشبكات العصبية، مما يؤدي إلى أداء متفوق في الحالات الصعبة أو غير المعتادة.