في عصر تنامي الخدمات الرقمية بشكل متسارع، أصبحت مراكز البيانات تحتل مرتبة عالية من حيث استهلاك الطاقة، مما يثير تساؤلات حرجة حول التكاليف التشغيلية والانبعاثات الكربونية. تهدف ورقة بحث جديدة إلى تقديم إطار عمل مبتكر لإدارة الطاقة في مراكز البيانات يعتمد على تقنية التعلم المعزز العميق (Deep Reinforcement Learning).

هذا الإطار المبتكر يسعى إلى التنسيق الديناميكي بين إنتاج الطاقة من الألواح الشمسية (Solar Photovoltaic)، والطاقة الريحية (Wind Power)، وأنظمة تخزين البطاريات (Battery Storage Systems)، بالإضافة إلى شبكة الكهرباء التقليدية، وذلك في ظل ظروف تشغيلية تتسم بالتغير والتعقيد.

يعتمد الإطار المقترح على نموذج عملية القرار ماركوف (Markov Decision Process) ويستخدم وكيل تفعيل السياسة القريبة (Proximal Policy Optimization - PPO) مدعومًا بهيكل هجين يجمع بين الذاكرة طويلة وقصيرة الأمد (Long Short-Term Memory) واهتمام زمني (Temporal Attention)، مما يمكنه من نمذجة ديناميات الأحمال والتغيرات في توليد الطاقة المتجددة بدقة.

يحقق هذا الإطار مرونة في الأداء من خلال وظيفة مكافأة متعددة الأهداف، تعمل على تقليل تكاليف الطاقة، والانبعاثات الكربونية، وانتهاكات اتفاقية مستوى الخدمة (Service-Level Agreement - SLA) بشكل متزامن، ويساهم في تعزيز استخدام التخزين بكفاءة.

أظهرت التجارب التي أُجريت على ثلاثة مجموعات بيانات أن الإطار المقترح يحقق تخفيضًا بنسبة 38% في تكاليف الطاقة مقارنةً بالأساليب القابلة للتطبيق القائم على القواعد، ويتجاوز الأداء الأقوى في التعلم المعزز العميق بنسبة 4.6% مع الحفاظ على معدل انتهاك SLA منخفض يصل إلى 1.5% وكفاءة طاقة تبلغ 83.7%.

هذا التطور يفتح آفاق جديدة لإدارة الطاقة في مراكز البيانات، مما يساهم في تحقيق الاستدامة البيئية.