في عصر يتطور فيه الذكاء الاصطناعي بوتيرة سريعة، أصبحت الروبوتات ذات الأرجل تمثل أحد المجالات المثيرة في أبحاث الروبوتات. تعتبر خوارزمية تحسين السياسات القريبة (Proximal Policy Optimization - PPO) هي الخيار الأفضل لتدريب هذه الروبوتات بفضل قدرتها على التحمل وقابليتها للتوسع في بيئات المحاكاة الموازية مثل IsaacLab. ومع ذلك، فإن طبيعتها المتابعة تؤدي إلى عدم كفاءة في استخدام العينات، مما يعرقل استخدامها في التكيف المستمر والتعديل الدقيق على الأجهزة الحقيقية.

تظهر خوارزمية ممثل نقدي ناعم (Soft Actor-Critic - SAC) كأحد الحلول الممكنة، إذ أنها خوارزمية خارج السياسة (off-policy) قادرة على إعادة استخدام الخبرات السابقة. هذا يجعلها مرشحة مثالية لعمليات نقل التعلم من المحاكاة إلى العالم الحقيقي، حيث يمكن استخدام نفس الخوارزمية في كليهما. وعلى الرغم من هذه المزايا، عانت SAC باستمرار من عدم التوافق مع الأداء العملي لـ PPO في بيئات التدريب المتوازية بشكل كبير.

تتوجه البحوث الحديثة لتحديد الأسباب الجذرية لهذه الفجوة وتقديم تعديلات مستهدفة تشمل تحسينات في إعداد السياسات، وأهداف نقدية مدركة للوقت، وتقدير العوائد متعددة الخطوات. هذه التعديلات تسهل تدريب SAC بشكل مستقر وفعّال على نطاق واسع.

عند تقييمها عبر منصات متعددة من الروبوتات ذات الأرجل ومهام الحركة المتنوعة، تثبت هذه الطريقة قدرتها على سد الفجوة في الأداء مع خوارزمية PPO بالكامل، مما يفتح آفاق جديدة لتعزيز تقنيات التعلم في الروبوتات.