في عصر الذكاء الاصطناعي (Artificial Intelligence) المتقدم، ظهر التعلم المعزز العميق (Deep Reinforcement Learning - DRL) كأحد الطرق الواعدة لحل المشاكل المعقدة المتعلقة بجدولة الأعمال، مثل جدولة ورش العمل. لكن، ما يعاني منه هذا المجال هو أن السياسات التي تعلمها DRL غالباً ما يتم تمثيلها بواسطة الشبكات العصبية العميقة (Deep Neural Networks - DNNs)، التي تمتاز بهياكلها الغامضة وقراراتها غير القابلة للتفسير. هذا الأمر قد يؤدي إلى قضايا ثقة واستخدام خطيرة بالنسبة لمتخذّي القرار البشر.

لذا، تقدم الدراسة الجديدة ProRL، وهو إطار عمل للتعلم المعزز القابل للتفسير، يتيح جدولة ذات أداء عالي باستخدام سياسات برمجية يمكن للبشر فهمها وتعديلها بسهولة. تمثل هذه السياسات عبر لغة مخصصة للجدولة (Domain-Specific Language - DSL-S)، والتي تنظم استراتيجيات الجدولة كبرامج هيكلية.

يعمل ProRL عن طريق استكشاف فضاء البرامج الذي تحدده DSL-S باستخدام البحث المحلي لتحديد البرامج غير المكتملة، والتي يكملها برمجياً عبر تعلم معالمها بواسطة تحسين بايزي. تجدر الإشارة إلى أن ProRL لا يتعلم فقط أي قواعد heuristics لتطبيقها، بل يدمج أيضاً القواعد الموجودة مسبقاً في السيناريوهات الصناعية.

أثبتت التجارب على مجموعة واسعة من النماذج المرجعية أن ProRL يقدم أداءً قوياً مقارنةً بالقواعد heuristics الحالية ومعايير DRL. كما أن ProRL يتمتع بأداء جيد حتى في بيئات ذات موارد محدودة، حيث يمكنه أن يتدرب باستخدام 100 حلقة فقط.

في ظل هذه التحديات، يوفر ProRL ثورة في كيفية التعامل مع جدولة الأعمال، مما يمهد الطريق لمزيد من الابتكارات في عالم الذكاء الاصطناعي. يمكنك الإطلاع على الشيفرة البرمجية الخاصة بـ ProRL عبر الرابط هنا. ما رأيكم في هذا التطور المثير؟ شاركونا في التعليقات.