في عالم التعلم المعزز (Reinforcement Learning) المعقد، يعتبر تحسين التفضيلات غير الخطية في الأهداف المتعددة (Multi-Objective Reinforcement Learning) أمرًا حاسمًا للتعامل مع التحديات مثل التفكير في المخاطر وتحقيق العدالة. تاريخيًا، تم تقسيم الأهداف غير الخطية إلى نموذجين متباينين: العائد المتوقع المقوم (Scalarized Expected Return - SER) والعائد المقوم المتوقع (Expected Scalarized Return - ESR)، مما أدى إلى تبعثر الاستراتيجيات.
ومع ذلك، نأتي اليوم بنموذج مبتكر: إطار العمل Aggregation-Expectation-Transformation (AET)، الذي يقوم بجسر الفجوة بين المعايير المختلفة من خلال تقسيم ثلاثي للعائد المقوم. يقدم هذا الإطار أساسًا محكمًا للتعامل مع الأهداف غير الخطية المعقدة.
بناءً على هذا الهيكل، تم اقتراح AETDICE، وهي خوارزمية فعّالة للتعلم المعزز ذات الصلة بالإطار AET. تستخدم AETDICE أسلوب تقدير نسبة الكثافة (DICE) في فضاء الحالات المعزز لتسهيل عملية التحسين الجاهزة على مجموعات البيانات الثابتة. يمكّن هذا الإطار الجديد من تجاوز حواجز طويلة الأمد ويدعم التحسين الذاتي الذكي عن طريق التقاط التوازنات المختلفة التي يتطلبها الإطار AET، وهو ما لم تتمكن الطرق التقليدية من فعله.
AETDICE: الهيكل الموحد والتحسين الذاتي للأهداف المتعددة في التعلم المعزز غير الخطي
تقديم AETDICE، خوارزمية جديدة تعالج التحديات في التعلم المعزز غير الخطي من خلال دمج الأهداف المتعددة بطريقة مبتكرة. الهيكل الموحد يوفر حلولاً ذكية لتحسين القرارات المعقدة بفعل توازن المخاطر والعدالة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
