تظل البيئات ثلاثية الأبعاد المفتوحة، والتي تتضمن خصوم معارضة، من أبرز التحديات في مجال [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) ([Reinforcement Learning](/tag/reinforcement-learning))، بسبب المساحات الواسعة للحالات. لذلك، تعتبر [تفاعلات](/tag/تفاعلات) [التفكير](/tag/التفكير) الفعّالة ضرورية في هذه السياقات. إلا أن معظم الأساليب الحالية في [التفكير البصري](/tag/[التفكير](/tag/التفكير)-البصري) [ذاتي](/tag/ذاتي) الإشراف غالبًا ما تعاني من تراكم [الأخطاء](/tag/الأخطاء) [عبر](/tag/عبر) خطوات متعددة. وللتغلب على هذه التحديات، لجأ العديد من [الباحثين](/tag/الباحثين) مؤخرًا إلى إضفاء [المعرفة](/tag/المعرفة) الخاصة بالمجال لتحقيق [توجيه](/tag/توجيه) أكثر استقرارًا.

[ابتكر](/tag/ابتكر) العلماء [نموذج](/tag/نموذج) '[ResDreamer](/tag/resdreamer)'، الذي يُعتبر نموذجًا هرميًا للعالم، حيث يتم [تدريب](/tag/تدريب) كل طبقة على إعادة [بناء](/tag/بناء) الأحداث المتبقية من الطبقة السفلية. يتيح هذا [التصميم](/tag/التصميم) مجابهة تعقيدات الديناميات العالمية بشكل تدريجي ويعزز ظهور [تمثيلات](/tag/تمثيلات) مكثفة. يستلهم [ResDreamer](/tag/resdreamer) من مفهوم 'الدرس المرير'، حيث يعتمد على [تدريب](/tag/تدريب) [تمثيلات](/tag/تمثيلات) [التفكير](/tag/التفكير) بشكل مُطلق [ذاتي](/tag/ذاتي) الإشراف. يتم استخدام التمثيلات المتبقية عالية المستوى لتعديل [التوقعات](/tag/التوقعات) في المستويات السفلية، مما يسمح للنموذج بالتوسع بفعالية مع [تكاليف](/tag/تكاليف) [تواصل](/tag/تواصل) بين الطبقات تزداد بشكل خطي فقط.

تشير [نتائج التجارب](/tag/نتائج-[التجارب](/tag/التجارب)) إلى أن [ResDreamer](/tag/resdreamer) يحقق [كفاءة](/tag/كفاءة) نموذجية متطورة من حيث العينات والمعلمات. إن هذا الهيكل القائم على [التفكير البصري](/tag/[التفكير](/tag/التفكير)-البصري) الهرمي يوفر الأساس لوكلاء [تعلم معزز](/tag/[تعلم](/tag/تعلم)-معزز) قادرين على العمل في بيئات [ديناميكية](/tag/ديناميكية) مفتوحة.

إذا كنتم مهتمين، يمكنكم الوصول إلى الشيفرة على [https://github.com/XuYuanFei01/ResDreamer].