في عالم الذكاء الاصطناعي، تعتبر السياسات الموجهة بالأهداف (Goal-conditioned Policies) أداة قوية، حيث تمكّن النماذج من اتخاذ قرارات متنوعة بناءً على أهداف محددة. ولكن، غالبًا ما تكون أداء هذه النماذج عرضة للتأثر باختيار التعليمات أو الموجهات. لتجاوز القيود التي تفرضها الموجهات النصية التقليدية، قام الباحثون بإعادة صياغة مفهوم التكيف بعد التدريب ليس كمجرد تعديل، بل كمسألة تحكم ضمنية.

إليكم "تحديث الأهداف المفضلة" (Preference Goal Tuning) - إطار عمل يضمن التحكم المستمر في السياسات المجمدة من خلال تحسين متغير التحكم المستمر الذي يمثل الهدف. يركز هذا الإطار على تبني هدف مستمر لضبط سلوك النموذج وفقًا للتفضيلات المحددة للمهام. بالمقارنة مع أساليب الضبط الدقيق التقليدية التي تعدل معلمات السياسة، يحتفظ PGT بالسياسة مجمدة ويقوم بتحديث الهدف فقط باستخدام هدف تعود تقديره على مستوى المسار.

تم تقييم فعالية هذا الأسلوب الجديد على معيار مهارات Minecraft SkillForge عبر 17 مهمة، حيث أظهر PGT تحسينات متوسطة بلغت 72.0% و81.6% على سياسات أساسية، متفوقًا باستمرار على الموجهات التي تم إعدادها بواسطة الخبراء. الأهم من ذلك، من خلال فك الارتباط بين توافق المهام (الهدف الكامن) والديناميكيات الفيزيائية (السياسة المجمدة)، حقق PGT نتائج أفضل بنسبة 13.4% في الإعدادات خارج التوزيع، مما يظهر قدرته الفائقة على التحمل والتعميم.