تظل البيئات ثلاثية الأبعاد المفتوحة، والتي تتضمن خصوم معارضة، من أبرز التحديات في مجال التعلم المعزز (Reinforcement Learning)، بسبب المساحات الواسعة للحالات. لذلك، تعتبر تفاعلات التفكير الفعّالة ضرورية في هذه السياقات. إلا أن معظم الأساليب الحالية في التفكير البصري ذاتي الإشراف غالبًا ما تعاني من تراكم الأخطاء عبر خطوات متعددة. وللتغلب على هذه التحديات، لجأ العديد من الباحثين مؤخرًا إلى إضفاء المعرفة الخاصة بالمجال لتحقيق توجيه أكثر استقرارًا.

ابتكر العلماء نموذج 'ResDreamer'، الذي يُعتبر نموذجًا هرميًا للعالم، حيث يتم تدريب كل طبقة على إعادة بناء الأحداث المتبقية من الطبقة السفلية. يتيح هذا التصميم مجابهة تعقيدات الديناميات العالمية بشكل تدريجي ويعزز ظهور تمثيلات مكثفة. يستلهم ResDreamer من مفهوم 'الدرس المرير'، حيث يعتمد على تدريب تمثيلات التفكير بشكل مُطلق ذاتي الإشراف. يتم استخدام التمثيلات المتبقية عالية المستوى لتعديل التوقعات في المستويات السفلية، مما يسمح للنموذج بالتوسع بفعالية مع تكاليف تواصل بين الطبقات تزداد بشكل خطي فقط.

تشير نتائج التجارب إلى أن ResDreamer يحقق كفاءة نموذجية متطورة من حيث العينات والمعلمات. إن هذا الهيكل القائم على التفكير البصري الهرمي يوفر الأساس لوكلاء تعلم معزز قادرين على العمل في بيئات ديناميكية مفتوحة.

إذا كنتم مهتمين، يمكنكم الوصول إلى الشيفرة على [https://github.com/XuYuanFei01/ResDreamer].