في عالم الذكاء الاصطناعي وتعلم الآلة، يُعتبر كل من الأداء والكفاءة في التعامل مع البيئات غير الثابتة من التحديات الكبرى. بينما تُظهر تقنية تعزيز سياسة التحسين القريب (Proximal Policy Optimization - PPO) أداءً قويًا في الإعدادات الثابتة، إلا أن ذلك لا يُترجم دائمًا إلى نجاح في البيئات الديناميكية.

تكشف الأبحاث الحديثة أن مشكلات تقنية PPO لا تنبع من قدرة النموذج المحدودة أو القيود المبالغ فيها. بل تتجلى المخاوف في إجراء تحديثات محلية غير فعالة بالاتجاه الصحيح، مما يجعله يفتقر إلى التوجيه الجغرافي الكافي لجمع تغييرات سلوكية ذات أهمية.

للتغلب على هذه العقبة، تم اقتراح أسلوب جديد يُعرف باسم Gaussian Trust Region Policy Optimization (GTR). يقوم هذا الأسلوب بإعادة تشكيل منطقة الثقة باستخدام kernel Gaussian، مما يوفر قيودًا مستدامة توفر استقرارًا محليًا قويًا مع توسيع نطاق التحديثات ذات الفائدة العالية الضرورية للتكيف الفعال.

وإضافةً إلى ذلك، تم تقديم Mixture Gaussian Anchor الذي يتكيف مع المسارات السلوكية الحديثة، مما يقلل من التباين الناتج عن الإشارات القديمة. تعد GTR تقنية غير مرتبطة بهندسة معينة، وقد حققت أداءً قويًا في مجموعة متنوعة من التطبيقات: من الألعاب، إلى التحكم في الروبوتات، وصولًا إلى استكشاف البيئات المفتوحة وتدريب نماذج اللغة.

هذه النتائج تدل على أن تصميم منطقة الثقة المدرك للأبعاد الجيولوجية يمكن أن يكون اتجاهًا واعدًا لتعزيز التعلم المعزز في البيئات المعقدة وغير الثابتة.