في عالم الذكاء الاصطناعي، تعتبر السياسات الموجهة بالأهداف (Goal-conditioned Policies) أداة قوية، حيث تمكّن النماذج من اتخاذ قرارات متنوعة بناءً على أهداف محددة. ولكن، غالبًا ما تكون أداء هذه النماذج عرضة للتأثر باختيار التعليمات أو الموجهات. لتجاوز القيود التي تفرضها الموجهات النصية التقليدية، قام الباحثون بإعادة صياغة مفهوم التكيف بعد التدريب ليس كمجرد تعديل، بل كمسألة تحكم ضمنية.
إليكم "تحديث الأهداف المفضلة" (Preference Goal Tuning) - إطار عمل يضمن التحكم المستمر في السياسات المجمدة من خلال تحسين متغير التحكم المستمر الذي يمثل الهدف. يركز هذا الإطار على تبني هدف مستمر لضبط سلوك النموذج وفقًا للتفضيلات المحددة للمهام. بالمقارنة مع أساليب الضبط الدقيق التقليدية التي تعدل معلمات السياسة، يحتفظ PGT بالسياسة مجمدة ويقوم بتحديث الهدف فقط باستخدام هدف تعود تقديره على مستوى المسار.
تم تقييم فعالية هذا الأسلوب الجديد على معيار مهارات Minecraft SkillForge عبر 17 مهمة، حيث أظهر PGT تحسينات متوسطة بلغت 72.0% و81.6% على سياسات أساسية، متفوقًا باستمرار على الموجهات التي تم إعدادها بواسطة الخبراء. الأهم من ذلك، من خلال فك الارتباط بين توافق المهام (الهدف الكامن) والديناميكيات الفيزيائية (السياسة المجمدة)، حقق PGT نتائج أفضل بنسبة 13.4% في الإعدادات خارج التوزيع، مما يظهر قدرته الفائقة على التحمل والتعميم.
تحديث الأهداف المفضلة: كيف يتحكم الذكاء الاصطناعي في السياسات المجمدة بطريقة ثورية!
تقدم دراسة جديدة مفهوم "تحديث الأهداف المفضلة" (Preference Goal Tuning) كإطار عمل مبتكر للتحكم في سياسات الذكاء الاصطناعي المجمدة. هذا النهج يحقق تحسينات ملحوظة في الأداء عبر تقنيات فعّالة باستخدام بيانات قليلة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
