في عالم الذكاء الاصطناعي، يواجه الباحثون [تحديات](/tag/تحديات) مستمرة في مجال [التعلم](/tag/التعلم) المعزز، حيث تهدف الأنظمة إلى اكتساب [مهارات جديدة](/tag/[مهارات](/tag/مهارات)-جديدة) مع الحفاظ على ما تعلمته في السابق. ومع ذلك، كانت الطرق التقليدية تعتمد على [أساليب](/tag/أساليب) بلا [نماذج](/tag/نماذج) (model-free) واستخدام Buffer للتخزين المؤقت، مما يؤدي إلى مواجهة صعوبات كبيرة في [التوسع](/tag/التوسع) واستخدام [الذاكرة](/tag/الذاكرة). هنا تأتي [تقنية](/tag/تقنية) ARROW (Augmented Replay for RObust [World](/tag/world) models) لتحدث ثورة حقيقية، مستلهمة من [عمل](/tag/عمل) [الدماغ](/tag/الدماغ) البشري الذي يُعيد تجربة الأحداث إلى [نموذج محاكاة](/tag/[نموذج](/tag/نموذج)-[محاكاة](/tag/محاكاة)) العالم بدلاً من [السياسات](/tag/السياسات) المباشرة.

تعتبر ARROW [خوارزمية](/tag/خوارزمية) [تعلم معزز](/tag/[تعلم](/tag/تعلم)-معزز) قائمة على النموذج، تمثل توسعة للإصدار DreamerV3، وتتضمن Buffer للتخزين المؤقت يتمتع بكفاءة عالية من حيث [الذاكرة](/tag/الذاكرة) ومتوافق مع [التوزيعات](/tag/التوزيعات). على عكس Buffers التقليدية ذات الحجم الثابت، فإن ARROW تحتفظ باثنين من Buffers المتكاملة: Buffer قصير الأجل لتجارب حديثة وBuffer طويل الأجل يحافظ على [تنوع](/tag/تنوع) المهام من خلال [تعليمات](/tag/تعليمات) أخذ عينات ذكية.

قمنا بتقييم [أداء](/tag/أداء) ARROW في بيئتين معقدتين للتعلم المستمر: الأولى تتمثل في المهام التي لا تمتلك هيكلًا مشتركًا، مثل [ألعاب](/tag/ألعاب) Atari، والثانية تتعلق بالمهام التي يمكن فيها [نقل](/tag/نقل) المعرفة، مثل [تغييرات](/tag/تغييرات) [Procgen](/tag/procgen) [CoinRun](/tag/coinrun). وأسفرت النتائج عن تجاوز ARROW بشكل ملحوظ لبقية الأساليب المعتمدة على [النماذج](/tag/النماذج) التقليدية، حيث أظهرت انخفاضًا كبيرًا في النسيان في المهام دون هيكل مشترك، بينما احتفظت بأداء مشابه في [نقل المعرفة](/tag/[نقل](/tag/نقل)-[المعرفة](/tag/المعرفة)).

هذه النتائج تسلط الضوء على الإمكانيات الكبيرة للتعلم المعزز القائم على النموذج والأساليب المستوحاة من البيولوجيا، مما يفتح آفاقًا جديدة للبحوث المستقبلية في هذا المجال.