في إنجازٍ جديد في عالم الذكاء الاصطناعي، تمكنا من تدريب وكيلٍ (agent) لتحقيق درجة مذهلة تبلغ 74,500 في لعبة مونتيزومَا ريفينج (Montezuma’s Revenge) بعد تلقيه عرضًا واحدًا فقط من إنسان. هذا الإنجاز لا يعكس فقط قدرة الذكاء الاصطناعي على التعلم بكفاءة، بل يكشف أيضًا عن الأساليب المبتكرة المستخدمة في تدريب الوكلاء
كلما زادت التحديات، تزداد الفرص للابتكار! اعتمدت خوارزمية التدريب التي استخدمناها على تشغيل تسلسل من الألعاب، بدأ الوكيل من حالات معينة تم اختيارها بعناية استنادًا إلى العرض الأولي.
لم نستخدم وسائل معقدة، بل اعتمدنا على تحسين النتائج باستخدام خوارزمية تُعرف باسم PPO (Proximal Policy Optimization)، وهي نفس الخوارزمية التي تدعم نجاح تجربة OpenAI Five. تحتفظ هذه التقنية بقدرتها على تعزيز أداء الوكيل وتحسين نقاطه على مدار التجارب.
هذا الإنجاز يعد نقطة مضيئة في مجال تدريب الوكلاء، حيث إنه يفتح أفقًا جديدًا لعالم الألعاب والذكاء الاصطناعي، ويثير تساؤلات حول كيفية الاستفادة من هذه التقنيات في تطبيقات أوسع.
لذا، إليكم السؤال: كيف تعتقدون أن هذه الإنجازات يمكن أن تؤثر على تطور الألعاب والتكنولوجيا بشكل عام؟ لا تترددوا في مشاركة آرائكم في التعليقات!
ابتكار مذهل: تعلم لعبة مونتيزومَا ريفينج من عرض واحد فقط!
نجحنا في تدريب وكيلٍ لتحقيق درجة عالية تبلغ 74,500 في لعبة مونتيزومَا ريفينج بعد عرض إنساني واحد فقط، متجاوزين جميع النتائج السابقة. استعدوا لاكتشاف كيفية استخدام خوارزمية بسيطة في هذا الإنجاز المذهل!
المصدر الأصلي:مدونة أوبن إيه آي
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
