في عالم الذكاء الاصطناعي، يزيد الاهتمام بالتعلم المعزز (Reinforcement Learning) والذي يواجه بعض التحديات الكبيرة عند التعامل مع البيانات الثابتة، مثل تغير التوزيع والأداء المحدود. هذا يتطلب تفاعلات بيئية متعددة ومكلفة. ولكن مع ظهور طرق هجينة تجمع بين التعلم الخارجي (Offline Learning) والتعلم عبر الإنترنت (Online Learning)، بدأت الجهود لتحسين الأداء والتحكم في هذه التحديات.
هنا تأتي خوارزمية COOPO (Cyclic Offline-Online Policy Optimization)، وهي إطار عمل مبتكر يتداول بين التدريب الخارجي المحدود والتكيف عبر الإنترنت بشكل دوري. يبدأ كل دورة بتنظيم السياسة وفقًا لبيانات التدريب عن طريق تحديثات قائمة على KL-المعدلة والتي تساعد على تقليل التحولات وتحسين كفاءة استخدام البيانات. ثم يقوم النظام بتحسين السياسة عبر الإنترنت باستخدام أي خوارزمية تحسين سياسة، مما يساعد على الاستكشاف المستقر.
الأهم من ذلك، أن الرجوع الدوري للتدريب الخارجي يمنع نسيان المعرفة القديمة ويقلل من التحولات، ويعزز من إعادة استخدام مجموعة البيانات. العمل الدوري يعزز أيضًا من تقليل التفاعلات البيئية اللازمة عبر الإنترنت.
تظهر الأبحاث أن COOPO يحقق كفاءة عينة أفضل مقارنةً بالتعلم المعزز النقي، مع تحسين ثابت في العوائد تحت ظروف تغطية معينة. وبفضل اختبارات D4RL الشاملة، يثبت COOPO أنه يقلل من تفاعلات الإنترنت بشكل كبير مقارنةً بأفضل الخوارزميات الهجينة، بينما يحافظ على متانة الأداء عبر مجموعة واسعة من الخوارزميات الخارجية والمُحسِّنات عبر الإنترنت. كل هذه العناصر تعزز من معايير كفاءة الأداء في التعلم المعزز القابل للتكيف.
ثورة جديدة في التعلم المعزز: COOPO يحل تحديات التحول وتقييد الأداء
COOPO هو خوارزمية مبتكرة في مجال التعلم المعزز، تتيح تحسين السياسة من خلال الجمع بين التدريب الخارجي والتكيف عبر الإنترنت. تقضي هذه الطريقة على مشكلات التحول والذاكرة المنسية، مما يعزز فعالية العوائد النهائية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
