في إنجازٍ [جديد](/tag/جديد) في عالم الذكاء الاصطناعي، تمكنا من [تدريب](/tag/تدريب) وكيلٍ (agent) لتحقيق درجة مذهلة تبلغ 74,500 في لعبة [مونتيزومَا ريفينج](/tag/مونتيزومَا-ريفينج) (Montezuma’s Revenge) بعد تلقيه عرضًا واحدًا فقط من إنسان. هذا الإنجاز لا يعكس فقط قدرة [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) على [التعلم](/tag/التعلم) بكفاءة، بل يكشف أيضًا عن الأساليب المبتكرة المستخدمة في [تدريب الوكلاء](/tag/[تدريب](/tag/تدريب)-[الوكلاء](/tag/الوكلاء))
كلما زادت التحديات، تزداد الفرص للابتكار! اعتمدت [خوارزمية](/tag/خوارزمية) [التدريب](/tag/التدريب) التي استخدمناها على تشغيل تسلسل من الألعاب، بدأ الوكيل من حالات معينة تم اختيارها بعناية استنادًا إلى العرض الأولي.
لم نستخدم وسائل معقدة، بل اعتمدنا على [تحسين النتائج](/tag/[تحسين](/tag/تحسين)-النتائج) باستخدام [خوارزمية](/tag/خوارزمية) تُعرف باسم [PPO](/tag/ppo) ([Proximal Policy Optimization](/tag/proximal-policy-optimization))، وهي نفس الخوارزمية التي تدعم [نجاح](/tag/نجاح) تجربة [OpenAI Five](/tag/openai-five). تحتفظ هذه [التقنية](/tag/التقنية) بقدرتها على تعزيز [أداء](/tag/أداء) الوكيل وتحسين نقاطه على مدار [التجارب](/tag/التجارب).
هذا الإنجاز يعد نقطة مضيئة في مجال [تدريب](/tag/تدريب) الوكلاء، حيث إنه يفتح أفقًا جديدًا لعالم [الألعاب](/tag/الألعاب) والذكاء الاصطناعي، ويثير تساؤلات حول كيفية الاستفادة من هذه التقنيات في [تطبيقات](/tag/تطبيقات) أوسع.
لذا، إليكم السؤال: كيف تعتقدون أن هذه [الإنجازات](/tag/الإنجازات) يمكن أن تؤثر على [تطور](/tag/تطور) [الألعاب](/tag/الألعاب) والتكنولوجيا بشكل عام؟ لا تترددوا في [مشاركة](/tag/مشاركة) آرائكم في [التعليقات](/tag/التعليقات)!
ابتكار مذهل: تعلم لعبة مونتيزومَا ريفينج من عرض واحد فقط!
نجحنا في تدريب وكيلٍ لتحقيق درجة عالية تبلغ 74,500 في لعبة مونتيزومَا ريفينج بعد عرض إنساني واحد فقط، متجاوزين جميع النتائج السابقة. استعدوا لاكتشاف كيفية استخدام خوارزمية بسيطة في هذا الإنجاز المذهل!
المصدر الأصلي:مدونة أوبن إيه آي
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
