في عالم الذكاء الاصطناعي، يزيد الاهتمام بالتعلم المعزز ([Reinforcement Learning](/tag/reinforcement-learning)) والذي يواجه بعض التحديات الكبيرة عند التعامل مع [البيانات](/tag/البيانات) الثابتة، مثل تغير التوزيع والأداء المحدود. هذا يتطلب [تفاعلات](/tag/تفاعلات) بيئية متعددة ومكلفة. ولكن مع ظهور طرق [هجينة](/tag/هجينة) تجمع بين [التعلم](/tag/التعلم) الخارجي (Offline Learning) والتعلم [عبر](/tag/عبر) الإنترنت (Online Learning)، بدأت الجهود لتحسين [الأداء](/tag/الأداء) والتحكم في هذه التحديات.

هنا تأتي [خوارزمية](/tag/خوارزمية) [COOPO](/tag/coopo) (Cyclic Offline-Online [Policy Optimization](/tag/policy-optimization))، وهي إطار [عمل](/tag/عمل) مبتكر يتداول بين [التدريب](/tag/التدريب) الخارجي المحدود والتكيف [عبر](/tag/عبر) الإنترنت بشكل دوري. يبدأ كل دورة بتنظيم السياسة وفقًا لبيانات [التدريب](/tag/التدريب) عن طريق [تحديثات](/tag/تحديثات) قائمة على [KL](/tag/kl)-المعدلة والتي تساعد على تقليل التحولات وتحسين [كفاءة](/tag/كفاءة) استخدام [البيانات](/tag/البيانات). ثم يقوم النظام بتحسين السياسة [عبر](/tag/عبر) الإنترنت باستخدام أي [خوارزمية](/tag/خوارزمية) [تحسين](/tag/تحسين) سياسة، مما يساعد على [الاستكشاف](/tag/الاستكشاف) المستقر.

الأهم من ذلك، أن الرجوع الدوري للتدريب الخارجي يمنع [نسيان](/tag/نسيان) [المعرفة](/tag/المعرفة) القديمة ويقلل من التحولات، ويعزز من إعادة استخدام [مجموعة البيانات](/tag/مجموعة-[البيانات](/tag/البيانات)). العمل الدوري يعزز أيضًا من تقليل [التفاعلات](/tag/التفاعلات) البيئية اللازمة [عبر](/tag/عبر) الإنترنت.

تظهر [الأبحاث](/tag/الأبحاث) أن [COOPO](/tag/coopo) يحقق [كفاءة](/tag/كفاءة) [عينة](/tag/عينة) أفضل مقارنةً بالتعلم المعزز النقي، مع [تحسين](/tag/تحسين) ثابت في العوائد تحت ظروف تغطية معينة. وبفضل [اختبارات](/tag/اختبارات) D4RL الشاملة، يثبت [COOPO](/tag/coopo) أنه يقلل من [تفاعلات](/tag/تفاعلات) الإنترنت بشكل كبير مقارنةً بأفضل [الخوارزميات](/tag/الخوارزميات) الهجينة، بينما يحافظ على [متانة](/tag/متانة) [الأداء](/tag/الأداء) [عبر](/tag/عبر) مجموعة واسعة من [الخوارزميات](/tag/الخوارزميات) الخارجية والمُحسِّنات [عبر](/tag/عبر) الإنترنت. كل هذه العناصر تعزز من [معايير](/tag/معايير) [كفاءة الأداء](/tag/[كفاءة](/tag/كفاءة)-[الأداء](/tag/الأداء)) في [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) القابل للتكيف.