في السنوات الأخيرة، حقق التعلم العميق المعزز (Deep Reinforcement Learning) تقدمًا كبيرًا في مجال مشاكل توجيه المركبات (Vehicle Routing Problems). إلا أن الأساليب الحالية المُعتمدة على التعلم العميق غالبًا ما تُدرَّب على أحداث يتم إنشاؤها من توزيع موحد، مما يحد من أدائها في مواجهة التحولات التوزيعية الواقعية. لذا، تسعى هذه الورقة إلى تطوير نموذج يتجه نحو تحسين القدرة على التعميم، من خلال تقسيم شبكة السياسات إلى عدة وحدات وإعادة تركيبها بشكل ديناميكي لتشكيل سياسات محددة أثناء عملية الاستدلال.

نقدم هنا نموذج Residual Refined Experts with Instance-level Gating (R2E-IG) الذي يسعى لتحسين التعميم عبر توزيعات بيانات متعددة. تنقسم إسهامات هذا النموذج إلى ثلاث نقاط رئيسية:

1. تقديم معمارية Residual Refined Expert (R2E) التي تعزز التعبير الخبروي عبر التنقيح التراكمي.
2. تصميم آلية بوابة على مستوى الحالة تتعلم تمثيلات حالة واعية للتوزيع وتوجه المدخلات إلى الوحدات المناسبة.
3. اقتراح آلية تدريب مختلطة التوزيع مزودة بتكييف ديناميكي للأوزان (Dynamic Weight Adaption - DWA)، مما يعيد وزن بيانات التدريب من توزيعات مختلفة بشكل ديناميكي للتركيز على البيانات الأكثر فائدة.

تظهر التجارب الشاملة أن نموذج R2E-IG يحقق أداءً تنافسيًا مقارنة بأفضل النماذج في كلا من حالات البيانات المتسقة وغير المتسقة، سواء على البيانات الاصطناعية أو مجموعات البيانات المُعتمدة. جدير بالذكر أن هذا النموذج يعمل بشكل عام ويمكن دمجه بسهولة مع الأساليب المُعتمدة على التعلم العميق لتعزيز الأداء بشكل أكبر.

بتطبيق هذه الابتكارات، فإن نموذج R2E-IG يمثل خطوة هامة نحو مزيد من التحسين والابتكار في مجال الذكاء الاصطناعي، مما يعد بفتح آفاق جديدة في معالجة مشاكل توجيه المركبات.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات!