تُعتبر أنظمة التعلم المعزز المتعدد (Multi-Agent Reinforcement Learning - MARL) من أكثر الأنظمة تعقيدًا في مجالات الذكاء الاصطناعي، حيث تتطلب في كثير من الأحيان العمل تحت ظروف غير مثالية تتمثل في تأخيرات الاتصالات والشبكات وعدم استقرارها. وعادةً ما تؤدي السياسات المدربة في ظروف متزامنة مثالية إلى تراجع كبير في الأداء عند التعامل مع ملاحظات قديمة أو تُركت خلف الركب نظرًا لعدم التحديث المستمر للمعلومات.

وفي هذا السياق، اقتُرح في دراسة جديدة نموذج تنفيذي يعتمد على طبقة تقدير حالة مصممة خصيصًا، تهدف إلى إسقاط الملاحظات المتأخرة التي تُستبدل بتقديرات حالة مستندة إلى اعتقادات حالية. يجمع هذا النموذج بين نموذج انتقال مؤتمن (Gated Transition Model) وطبقة تقدير كالمان المتكررة، حيث يتمكن من تقدير الحالات اللحظية بناءً على قياسات غير متزامنة.

أحد المزايا الجوهرية لهذا النهج هو مرونته؛ حيث تعمل طبقة التقدير كإضافة لنماذج سياسات التعلم المعزز المدرب مسبقًا دون الحاجة إلى تعديل خوارزمية التدريب أو الهيكل الأساسي أو هيكل المكافأة.

عند تقييم أداء النموذج عبر مختلف محطات التقييم المتعددة الوكلاء والتحكم المستمر، أظهرت النتائج أن الطبقة المقترحة تعمل على تعزيز الاستقرار ضد تأخيرات الاتصال وفقدان الرسائل. وكان أكبر تحسن ملحوظ في المهام التي تتطلب تنسيقًا عاليًا وتكون غير مستقرة ديناميكيًا، حيث يكون الاتساق الزمني أمرًا بالغ الأهمية للتحكم الفعال.

هذا التطور يسير بخطى ثابتة نحو تحسين استراتيجية العمل للذكاء الاصطناعي في البيئات المعقدة. فهل نحن أمام ثورة جديدة في عالم التعلم المعزز المتعدد؟ شاركونا آراءكم حول هذا البحث الثوري!