في عالم الذكاء الاصطناعي، يسعى الباحثون لتحقيق أقصى استفادة من تقنيات التدريب الجماعي للسياسات مثل طريقة الممثل-الناقد (Actor-Critic). ومع ذلك، غالبًا ما تتجاهل هذه الدراسات التباين البيئي أو تفقد الطابع الشخصي عبر تدريب سياسة واحدة مشتركة بين جميع الوكلاء.
يقدم البحث الجديد نموذجًا مُنتَجًا فيدراليًا يُركز على تعزيز التعاون بين الوكلاء مع المحافظة على مكونات السياسة المحلية الشخصية. هذا الإطار يتيح للوكلاء تبادل تمثيل فرعي خطي مشترك مع تحديث السياسات المحلية بشكل دوري. يتمكن الوكلاء من تقدير الفضاء الفرعي المشترك، ورؤوس النقاد المحلية، والسياسات المحلية (أي الممثلين) عبر آلية تحديثات تتسم بالسرعة، مما يجعله أداة قوية في التغلب على تحديات البيئات المعقدة.
تركز الدراسة على تحديثات زمنية فردية وتطبيقات عشوائية ماركوفية، وتظهر أن خطأ الناقد يتقلص بشكل تدريجي سريع، مما يؤدي إلى أداء مُعزز وبنية مستقرة. وفيما يتعلق بتقييم الفرق بين التوقعات تحت النماذج الماركوفيّة والسياسات المجمدة مؤقتًا، يقوم الباحثون بتطوير تحليلات مضطربة جديدة تدعم تحديثات الفضاءات الفرعية.
تظهر التجارب التي تم تنفيذها ضمن إطار العمل الجديد فوائد واضحة عند تطبيق نموذج PPO على تضارب حركة الفيدرالية في نموذج Hopper-v5، حيث حقق أداءً متفوقًا على نماذج مثل Single PPO وFedAvg PPO. تعزز هذه النتائج إمكانية التعلم المشترك ونقل المعرفة من trunk المشتركة، مما يفتح آفاقًا جديدة في مجال أبحاث الذكاء الاصطناعي.
في ظل هذه التطورات الرائعة، ما هو تأثركم بهذا الابتكار في تدريب السياسات المتعاون والشخصي؟
تدريب سياسات متعاون وشخصي: الابتكار في نموذج المُنتَج الفيدرالي
تقدم الدراسة الجديدة منهجية مبتكرة لتدريب السياسات المتعاونة، تجمع بين التعاون والشخصية في إطار مُنتَج فيدرالي. تُظهر النتائج أن هذه الطريقة تحقق تسريعًا ملحوظًا في التعليم مع الحفاظ على دقة الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
