في عالم تعلم التعزيز (Reinforcement Learning)، باتت خوارزميات التعزيز الحديثة تعتمد بشكل كبير على نماذج إعادة التشغيل المنتظمة (Uniform Replay Sampling). ولكن، تبقى تساؤلات قائمة حول متى ولماذا تكون إعادة التشغيل غير المنتظمة (Non-Uniform Replay) أكثر فعالية من هذا الأساس القوي.

من خلال دراسة متعمقة عبر إعدادات متنوعة من التعلم، تم التعرف على ثلاثة عوامل رئيسية تؤثر في فعالية إعادة التشغيل غير المنتظمة: أولاً، حجم الإعادة (Replay Volume) الذي يشير إلى عدد التحولات المعادة في كل خطوة بيئية؛ ثانياً، الحداثة المتوقعة (Expected Recency)، والتي تشير إلى مدى قرب التحولات المعادة من اللحظة الحالية؛ وأخيراً، إنتروبيا توزيع إعادة التشغيل (Entropy of the Replay Sampling Distribution).

وقد تمثل الإسهام الرئيسي للدراسة في توضيح متى تكون إعادة التشغيل غير المنتظمة مفيدة، وتقديم إرشادات عملية لتصميم آليات الإعادة في نماذج التعلم الحديثة.

أظهرت النتائج أن إعادة التشغيل غير المنتظمة تكون أكثر فائدة عند انخفاض حجم الإعادة، وأن استخدام عينة ذات إنتروبيا عالية مهم حتى عند وجود حداثة متوقعة متشابهة. بناءً على هذه الاكتشافات، تم إدخال استراتيجية إعادة تشغيل بسيطة تعتمد على نمط الـ “Truncated Geometric” لتعزيز تجريب البيانات الأكثر حداثة مع الاستفادة من الإنتروبيا العالية، وبأعباء حسابية منخفضة للغاية.

أثبتت هذه الاستراتيجية فعاليتها عبر محاكاة واسعة النطاق، بما في ذلك إعدادات متعددة المهام، حيث حسّنت كفاءة العينة في الظروف ذات الحجم المنخفض، بينما بقيت تنافسية في حالات الحجم العالي.