تواجه أنظمة التعلم المتعاون بين الوكلاء (Multi-Agent Reinforcement Learning - MARL) تحديات كبيرة بسبب الضوضاء الناتجة عن تفاعلات الوكلاء مع بعضهم البعض. فعندما يتشارك الوكلاء مكافأة واحدة، تصبح إشارات التعلم لكل وكيل متعلقة بالإشارات المكتسبة من الآخرين، مما يؤدي إلى تزايد الضوضاء بشكل يتناسب مع عدد الوكلاء. ولكن幸运地، فإن العديد من الأنظمة الهندسية، مثل الحوسبة السحابية (Cloud Computing) وأنظمة الطاقة (Power Systems)، تمتلك نماذج تحليلية قابلة للاشتقاق توفر إشارات دقيقة لا تُصاحبها تلك الضوضاء.
في هذا السياق، تم تقديم تقنية جديدة تُعرف باسم "Gradient Descent-Guided Policy Gradient (DG-PG)". تعمل هذه التقنية على تعزيز تحديثات دالة السياسة باستخدام إشارات انحدار خالية من الضوضاء استنادًا إلى النماذج التحليلية. أظهرت الدراسات أن DG-PG تقلل من تباين تقديرات دالات السياسة بشكل كبير، مما يعني تحسين الأداء في معالجة التعلم المتعاون.
وأظهرت التجارب على مهمة جدولة الموارد السحابية الموزعة، التي شملت ما يصل إلى 1500 وكيل، أن DG-PG تتقارب خلال 20 جلسة تدريب في المتوسط، بينما فشلت الطُرق التقليدية مثل MAPPO وIPPO في تحقيق نفس النتائج في البنية المعمارية المشابهة.
تُظهر هذه التقنية كيف يمكن الابتكار في الذكاء الاصطناعي أن يؤدي إلى تحسينات كبرى في كيفية تعامل الأنظمة المتعددة الوكلاء مع التحديات المعقدة، مما يمهد الطريق لمزيد من الاستخدامات الكفؤة في مجالات متنوعة.
ما رأيكم في هذه التطورات الثورية في عالم الذكاء الاصطناعي؟ شاركونا في التعليقات!
ثورة التعلم المتعاون: اكتشاف تقنية DG-PG لتحسين الأداء في أنظمة الذكاء الاصطناعي!
تقدم تقنية 'DG-PG' مفهومًا مبتكرًا في تعلم التعزيز المتعاون بين الوكلاء، حيث يقلل من الضوضاء الناتجة عن تفاعلهم. ومع تنفيذها، تمكنت من تحقيق نتائج أسرع وأكثر كفاءة مقارنة بالطُرق التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
