في عالم تصنيع أشباه الموصلات، تواجه الشركات تحديات ضخمة تتعلق بالتخطيط للانتاج والتحكم بسبب الطبيعة العشوائية والقيود العديدة لهذه الأنظمة. تتطلب العمليات الانتاجية للتحكم في wafers المتنوعة، التي تمر عبر مئات الخطوات المعقدة، أنظمة قرار موثوقة يمكنها التعامل مع التأخير في ردود الفعل ومتطلبات المدى الطويل. هنا يأتي دور تعلم المعزز (Reinforcement Learning).

نقدم إطار عمل متقدما لتعلم المعزز يركز على تحسين السياسات متعددة الأهداف لمواجهة هذه التحديات. يعتمد هذا الإطار على نموذج مركزي يتحكم في اتخاذ القرارات على مستوى النظام ككل، مع تمثيل تقدم النظام كعملية زمنية مترابطة مدفوعة بالأحداث المنفصلة.

قمنا بتطوير صياغة فريدة من نوعها تتعلق بالفرق الزمني المدفوع بالأحداث، والتي تبقى عامة وقابلة للتكامل مع مجموعة متنوعة من طرق تحسين السياسات. من خلال تجربة عدة خوارزميات متطورة خالية من النموذج، توصلنا إلى نتائج مذهلة في تجارب محاكاة قريبة من الواقع في مجالات صناعية متنوعة.

عبر مجموعة واسعة من التجارب التحقيقية، أظهرت الوكلاء المدربون كفاءات ملحوظة في كلاً من البيئات التدريبية غير المتصلة بالإنترنت والاتصال بالإنترنت، مما يعكس مكاسب كبيرة وثابتة في الإنتاجية والاستخدام. كما قمنا بتقييم الأداء والتعميم عبر مراحل التدريب، مما يسلط الضوء على قوة الخوارزميات المختلفة.

يعزز هذا الإطار المقترح من القدرة على التحكم في الأنظمة المعقدة القابلة للتكيف المحركة بالأحداث، وبالتالي، يفتح آفاقا جديدة لتحسين نماذج إنتاجية أكثر فعالية وابتكارًا.