في عالم الذكاء الاصطناعي، تُعتبر خوارزمية Proximal Policy Optimization (PPO) واحدة من أبرز الخوارزميات المستخدمة في التعلم المعزز على أساس السياسات. لقد حققت PPO شهرة واسعة بفضل قابليتها للتوسع وموثوقيتها في مجموعة متنوعة من المجالات. ولكن، على الرغم من نجاحها، كان هناك فجوة ملحوظة بين الأسس النظرية لأساليب المناطق الموثوقة (trust region methods) والهدف التجريبي المقتطع المستخدم في PPO.
وفي محاولة لسد هذه الفجوة، يقدّم الباحثون إطار عمل جديد يُعرف باسم Bounded Ratio Reinforcement Learning (BRRL). يتمحور هذا الإطار حول صياغة مشكلة جديدة لتنظيم وتحسين السياسات بصورة منهجية، مما ينتج حلاً مثالياً يمكن تحليله بشكل دقيق. يتميز هذا الحل بضمان تحسين الأداء بشكل متواصل، ويُعزز مفهوم تحسين السياسات عبر تقديم خوارزمية جديدة تُسمى Bounded Policy Optimization (BPO)، والتي تقلل من الانحراف المرتبط بالميزة بين السياسة والحل المثالي من BRRL.
بالإضافة إلى ذلك، يقدم الإطار BPO حداً أدنى للأداء المتوقع بناءً على دالة خسارة BPO. ومن المثير للاهتمام، أن هذا الإطار يوفر أيضاً رؤى نظرية جديدة لفهم نجاح دالة خسارة PPO، كما يربط بين أساليب تحسين السياسات في المناطق الموثوقة وطريقة الانحدار عبر التباين (Cross-Entropy Method - CEM).
علاوة على ذلك، تمتد خوارزمية BPO لتشمل مجموعة-نسبية BPO (GBPO) لمهام تحسين النماذج اللغوية (LLMs). أظهرت التقييمات التجريبية لكل من BPO وGBPO عبر بيئات MuJoCo، وألعاب Atari، وبيئات معقدة مثل IsaacLab (على سبيل المثال، المشي الآلي) أن كلاً من BPO وGBPO تضمن أداءً ثابتاً وعالياً، حيث تفوقا غالباً أو تعادلوا في الأداء مع PPO وGRPO.
إن هذا التطور يمثل قفزة نوعية في مجال التعلم المعزز، مع آمال جديدة لتحسين الأداء في تطبيقات الذكاء الاصطناعي.
تعزيز التعلم المعزز: إطار جديد يحمل آمالاً جديدة في تحسين الأداء
تقدم ورقة بحثية جديدة إطار العمل Bounded Ratio Reinforcement Learning (BRRL) لتحسين خوارزميات التعلم المعزز. هذا الإطار يضمن تحسين أداء مستمر ويوفر رؤى جديدة حول نجاح خوارزمية Proximal Policy Optimization (PPO).
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
