تواجه شبكة توزيع الكهرباء تحديات كبيرة نتيجة الزيادة السريعة في اعتماد السيارات الكهربائية (Electric Vehicles - EVs)، مما يؤدي إلى حدوث ذروات في الحمل الكهربائي، وعدم استقرار في الجهد، وإجهاد المحولات نتيجة الشحن غير المنسق. على الرغم من أن طرق التحكم التنبؤي النموذجي (Model Predictive Control - MPC) وتعليم التعزيز (Reinforcement Learning - RL) قد عالجت العديد من هذه القضايا، إلا أن القليل منها يعتبر كثافة الكربون الحالية أو توفر الطاقة المتجددة (Renewable Energy - RE) في الوقت الحقيقي كأهداف رئيسية في جدولة الشحن، مما يترك إمكانيات تقليل الانبعاثات غير محققة.

تقدم دراسة جديدة استراتيجية تعليم تعزيز معنية بالانبعاثات مبنية على خوارزمية Soft Actor Critic (SAC)، حيث تعتمد على نموذج مكافأة متعدد الأهداف يعاقب على انبعاثات الكربون، وتقليص الطاقة الشمسية وطاقة الرياح المتاحة، وعدم تلبيتها لمتطلبات المستخدم. يتم تدريب الوكيل ضمن إطار مرجعي موحد على منصة EV2Gym، حيث تضم بيانات تتعلق بكثافة الكربون من EirGrid وسلوك السيارات الكهربائية الواقعية عبر 25 وحدة شاحن كهربائي.

تم مقارنة تسع استراتيجيات تحكم، بما في ذلك أساليب تقليدية وتعديلات MPC المعنية بالانبعاثات والوكيل المعزز، تحت خمسة سيناريوهات مختلفة لاختراق الطاقة المتجددة (من 0% إلى 50%). وقد حقق الوكيل تحسينًا ملحوظًا في كثافة الكربون، حيث وصلت إلى 23.96 جرام من ثاني أكسيد الكربون لكل كيلووات ساعة تحت 50% من استخدامل طاقة الرياح، مما يمثل تقليلًا يصل إلى 87% مقارنة بالأساليب غير المنضبطة. بالإضافة إلى ذلك، تم الحفاظ على إجهاد المحولات أقل من 7 كيلووات ساعة عبر جميع السيناريوهات، مقارنة بـ 1093 كيلووات ساعة للاستراتيجية التقليدية. كما سجلت نسبة استهلاك الطاقة المتجددة 52% تحت تأثيرات الرياح والطاقة الشمسية.

تكامل توقعات كثافة الكربون ضمن حالة وتعزيز التعليم يعزز من تنسيق الشحن خلال الفترات ذات الانبعاثات المنخفضة، مع الحفاظ على الامتثال للشبكة ورضا المستخدم.