في عالم التحسين التوافقي، تبرز مشاكل تحديد المواقع والتوجيه السعري (CLRPs) كأحد التحديات الكلاسيكية التي تتطلب اتخاذ قرارات متعددة ومعقدة في آن واحد. تُعقّد الشروط الصارمة والعلاقات المتداخلة بين القرارات المختلفة من صعوبة حل هذه المشاكل. ولكن مع ظهور أساليب التعلم المعزز العميق (Deep Reinforcement Learning) كالأمل الجديد في مجال الحلول، لا تزال الأبحاث المتعلقة بـ CLRPs بحاجة لاستكشاف عميق.

في ورقتنا البحثية الجديدة، نقدم نهجاً مبتكراً يُدعى التعلم المعزز العميق مع استعلامات غير متجانسة (DRLHQ) لحل مشاكل CLRP وفتح CLRP (OCLRP). نعتبر الرواد في تقديم نهج تعلم متكامل لهذه المشاكل، متبعين هيكلية المحولات encoder-decoder التي تعزز من فعالية نموذجنا.

بشكل خاص، نقوم بإعادة صياغة CLRPs كعملية اتخاذ قرارات ماركوف (Markov Decision Process) مصممة لتتناسب مع القرارات المتنوعة، مما يُمنح إطاراً نموذجياً عاماً يمكن توفيقه مع أساليب أخرى تعتمد على تعلم المعزز. ولتعزيز التفاعل بين قرارات الموقع والتوجيه، قدمنا آلية استعلام متعددة تكيّفية جديدة تتكيف ديناميكياً مع مراحل اتخاذ القرار المختلفة.

تظهر النتائج التجريبية التي أجريت على كل من مجموعات البيانات الاصطناعية وقياسية الأداء تفوقاً واضحاً في جودة الحلول وأفضلية في الأداء العام للمقاربة المقترحة مقارنةً بالمناهج التقليدية والمعتمدة على التعلم العميق. هذا التفوق يُعزز من إمكانية استخدام تقنيات التعلم العميق في ميدان حل مشاكل تحديد المواقع والتوجيه على نطاق واسع.

في ضوء هذه النتائج، نسعى لإلهام الباحثين والممارسين في هذا المجال لاستكشاف أفق تطبيقات جديد وتطوير استراتيجيات متقدمة تساهم في تحسين أداء الأنظمة اللوجستية.