تُعتبر تقنيات التعلم المعزز (Reinforcement Learning) اليوم أحد أهم أدوات تطوير السياسات القابلة للتطبيق، خاصةً عند استخدامها في المحاكاة المتوازية على نطاق واسع. ورغم ذلك، لا تزال بعض الطرق التقليدية تعتمد على نماذج المعلمات البسيطة، مثل نماذج Gaussian، وهي قد تكون غير كافية لمواجهة التحديات المعقدة في السيطرة.

ظهرت نماذج الانتشار (Diffusion Models) كبديل أكثر تعبيرًا، حيث أحرزت تقدمًا ملحوظًا في معالجة المشاكل التحكمية الصعبة، لكنها غالبًا ما ترتبط بالتدريب غير المتصل (Offline) أو التدريب غير المباشر (Off-policy). لذا، تم طرح سؤال مهم: هل يمكن تدريب سياسات الانتشار بفعالية في نظام محاكاة متوازٍ ومتصل (On-policy)؟

استجابة لهذا التحدي، قام الباحثون بتقديم نموذج سياسات الانتشار الموثوقة (Trust-region Diffusion Policies - TruDi). يهدف TruDi إلى تمكين تدريب سياسات الانتشار ضمن بيئة موارد محاكاة متوازية. هذه البيئة تعتبر مميزة وصعبة، حيث تتغير توزيع البيانات بسرعة عبر التحديثات، ما يجعل التدريب المستقر مع السياسات المعقدة أمرًا بالغ الصعوبة.

يعمل TruDi على معالجة هذه القضية من خلال دمج قاعدة تحسين الموثوقية، التي تفرض قيد تباين Kullback-Leibler (KL-divergence) على المسار الكامل للتوزيع الناتج. من خلال التجارب، تم تقييم TruDi على مجموعة متنوعة من 4 معايير للتعلم المعزز المتوازي، التي تتألف من 73 مهمة. وأظهر TruDi تفوّقًا متسقًا أو مساواة مع نماذج مرجعية قوية في المهام القياسية، بالإضافة إلى تحصيله لمكاسب واضحة في المهام المعقدة الخاصة بتوجيه الروبوتات البشرية، مما يضع أساسًا قويًا جديدًا للتعلم المعزز في بيئات المحاكاة المتوازية.