في عصر الذكاء الاصطناعي، تحظى مشاكل جدولة المهام (Job Shop Scheduling - JSP) و(جدولة المهام المرنة - Flexible JSP) بأهمية متزايدة. على الرغم من النجاحات التي حققتها الطرق المعتمدة على التعلم القائم على التفاعل، إلا أن هذه الطرق تواجه تحدياً كبيراً في الكفاءة العملية بسبب الحاجة إلى تفاعل كبير مع الأنظمة المُحاكية. لكن يبدو أن الحل قد ظهر في شكل خوارزمية جديدة تحمل اسم **Conservative Discrete Quantile Actor-Critic (CDQAC)**.

تعمل هذه الخوارزمية عن طريق التعلم من مجموعات بيانات ثابتة، حتى لو كانت غير مثالية. تجمع بين طريقة تقدير قائمة المعدلات (quantile) مع تحديثات البُعد الزمني للسياسات، مما يسمح لها بتقدير توزيع العوائد لعمليات الماكينات. تجارب متعددة في مجال JSP وFJSP أظهرت أن CDQAC تتفوق على العديد من الحلول التقليدية وتقدم أداءً مدهشاً، محققة كفاءة عينة عالية تتطلب فقط 1 إلى 5 بالمئة من مجموعة البيانات الأصلية للتعلم.

تظهر التحليلات أن أداء التعلم القائم على البيانات الثابتة يعتمد بشكل رئيسي على تغطية الحالات والإجراءات بدلاً من جودة المسارات الفردية. حيث تستطيع استراتيجيات الجدولة ربط مكافآت كثيفة مع الأهداف الزمنية، مما يسهل التعلم من مجموعة متنوعة من السلوكيات. وبالتالي، يسمح استخدام مجموعات بيانات تم إنشاؤها بواسطة أساليب عشوائية بسيطة بتحقيق نتائج أفضل من السياسات التي تم تدريبها على مجموعات بيانات تم توليدها بواسطة أساليب أقوى مثل الخوارزميات الجينية.

تبرز هذه النتائج أهمية الذكاء الاصطناعي في تطوير استراتيجيات فعالة وجديدة لجدولة المهام، مما قد يفتح آفاقاً جديدة لمزيد من الابتكارات في هذا المجال المستقبلي.