تحديث الأهداف المفضلة: كيف يتحكم الذكاء الاصطناعي في السياسات المجمدة بطريقة ثورية!

في عالم الذكاء الاصطناعي، تعتبر السياسات الموجهة بالأهداف (Goal-conditioned Policies) أداة قوية، حيث تمكّن النماذج من اتخاذ قرارات متنوعة بناءً على أهداف محددة. ولكن، غالبًا ما تكون أداء هذه النماذج عرضة للتأثر باختيار التعليمات أو الموجهات. لتجاوز القيود التي تفرضها الموجهات النصية التقليدية، قام الباحثون بإعادة صياغة مفهوم التكيف بعد التدريب ليس كمجرد تعديل، بل كمسألة تحكم ضمنية.

إليكم "تحديث الأهداف المفضلة" (Preference Goal Tuning) - إطار عمل يضمن التحكم المستمر في السياسات المجمدة من خلال تحسين متغير التحكم المستمر الذي يمثل الهدف. يركز هذا الإطار على تبني هدف مستمر لضبط سلوك النموذج وفقًا للتفضيلات المحددة للمهام. بالمقارنة مع أساليب الضبط الدقيق التقليدية التي تعدل معلمات السياسة، يحتفظ PGT بالسياسة مجمدة ويقوم بتحديث الهدف فقط باستخدام هدف تعود تقديره على مستوى المسار.

تم تقييم فعالية هذا الأسلوب الجديد على معيار مهارات Minecraft SkillForge عبر 17 مهمة، حيث أظهر PGT تحسينات متوسطة بلغت 72.0% و81.6% على سياسات أساسية، متفوقًا باستمرار على الموجهات التي تم إعدادها بواسطة الخبراء. الأهم من ذلك، من خلال فك الارتباط بين توافق المهام (الهدف الكامن) والديناميكيات الفيزيائية (السياسة المجمدة)، حقق PGT نتائج أفضل بنسبة 13.4% في الإعدادات خارج التوزيع، مما يظهر قدرته الفائقة على التحمل والتعميم.

تحديث الأهداف المفضلة: كيف يتحكم الذكاء الاصطناعي في السياسات المجمدة بطريقة ثورية!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم الذكاء الاصطناعي: OpenAI تطلق نموذج GPT-5.5 Instant الافتراضي لChatGPT

نحو مستقبل مثير: كيف تُعيد الأنظمة الذكية تشكيل تعاملنا مع الذكاء الاصطناعي

هل اقتربنا من ثورة مراكز بيانات الذكاء الاصطناعي تحت المحيطات؟ 🌊💡