في عالم الذكاء الاصطناعي، يواجه الباحثون [تحديات](/tag/تحديات) مستمرة في مجال [التعلم](/tag/التعلم) المعزز، حيث تهدف الأنظمة إلى اكتساب [مهارات جديدة](/tag/[مهارات](/tag/مهارات)-جديدة) مع الحفاظ على ما تعلمته في السابق. ومع ذلك، كانت الطرق التقليدية تعتمد على [أساليب](/tag/أساليب) بلا [نماذج](/tag/نماذج) (model-free) واستخدام Buffer للتخزين المؤقت، مما يؤدي إلى مواجهة صعوبات كبيرة في [التوسع](/tag/التوسع) واستخدام [الذاكرة](/tag/الذاكرة). هنا تأتي [تقنية](/tag/تقنية) ARROW (Augmented Replay for RObust [World](/tag/world) models) لتحدث ثورة حقيقية، مستلهمة من [عمل](/tag/عمل) [الدماغ](/tag/الدماغ) البشري الذي يُعيد تجربة الأحداث إلى [نموذج محاكاة](/tag/[نموذج](/tag/نموذج)-[محاكاة](/tag/محاكاة)) العالم بدلاً من [السياسات](/tag/السياسات) المباشرة.
تعتبر ARROW [خوارزمية](/tag/خوارزمية) [تعلم معزز](/tag/[تعلم](/tag/تعلم)-معزز) قائمة على النموذج، تمثل توسعة للإصدار DreamerV3، وتتضمن Buffer للتخزين المؤقت يتمتع بكفاءة عالية من حيث [الذاكرة](/tag/الذاكرة) ومتوافق مع [التوزيعات](/tag/التوزيعات). على عكس Buffers التقليدية ذات الحجم الثابت، فإن ARROW تحتفظ باثنين من Buffers المتكاملة: Buffer قصير الأجل لتجارب حديثة وBuffer طويل الأجل يحافظ على [تنوع](/tag/تنوع) المهام من خلال [تعليمات](/tag/تعليمات) أخذ عينات ذكية.
قمنا بتقييم [أداء](/tag/أداء) ARROW في بيئتين معقدتين للتعلم المستمر: الأولى تتمثل في المهام التي لا تمتلك هيكلًا مشتركًا، مثل [ألعاب](/tag/ألعاب) Atari، والثانية تتعلق بالمهام التي يمكن فيها [نقل](/tag/نقل) المعرفة، مثل [تغييرات](/tag/تغييرات) [Procgen](/tag/procgen) [CoinRun](/tag/coinrun). وأسفرت النتائج عن تجاوز ARROW بشكل ملحوظ لبقية الأساليب المعتمدة على [النماذج](/tag/النماذج) التقليدية، حيث أظهرت انخفاضًا كبيرًا في النسيان في المهام دون هيكل مشترك، بينما احتفظت بأداء مشابه في [نقل المعرفة](/tag/[نقل](/tag/نقل)-[المعرفة](/tag/المعرفة)).
هذه النتائج تسلط الضوء على الإمكانيات الكبيرة للتعلم المعزز القائم على النموذج والأساليب المستوحاة من البيولوجيا، مما يفتح آفاقًا جديدة للبحوث المستقبلية في هذا المجال.
ARROW: ثورة في التعلم المستمر عبر Replay الذكي!
تقدم تقنية ARROW حلولاً مبتكرة لتحديات التعلم المستمر، حيث تطبق استراتيجيات مستوحاة من الدماغ البشري لتحسين أداء النماذج. باعتمادها على آليات التخزين الذكي، تحقق ARROW نتائج مبهرة في تقليل النسيان وتعزيز الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
