في عالم التعلم المعزز (Reinforcement Learning)، يعتمد العلماء على أنظمة مكافأة تعمل على تحسين الوظائف القابلة للتقييم بدقة. لكن، ماذا لو كانت هذه القيم غير مؤكدة وتعتمد على السياقات البشرية؟ هنا يأتي البحث الجديد من arXiv الذي يقدم إطار عمل مبتكر يعالج هذه التحديات. تركز المشكلة على كيفية التقييم الدقيق للنتائج في بيئات غير مستقرة، حيث تظل تفضيلات البشر متغيرة ومتعارضة في بعض الأحيان.

لذا، يعرض هذا البحث نموذجًا مزدوج المصدر يركز على عدم اليقين في تقدير القيمة وعدم اليقين في تفضيلات البشر. يتم التعامل مع عدم اليقين في النموذج من خلال تباين توقعات القيمة، بينما تدور عدم اليقين في التفضيلات حول تباين التعليقات على المكافآت. من خلال دمج هذه الإشارات عبر فلتر موثوقية معدّل وفقًا للثقة، نتوصل إلى توازن بين عمليات الاستغلال والحذر.

أظهرت النتائج التجريبية عبر تكوينات شبكية متعددة (6x6، 8x8، 10x10) وبيئات تحكم مستمرة عالية الأبعاد (Hopper-v4، Walker2d-v4) أن هذا النهج يؤدي إلى ديناميات تدريب أكثر استقرارًا ويقلل من السلوكيات الاستغلالية عند وجود غموض في المكافآت، محققًا تقليصًا يصب في 93.7% في سلوكيات الخداع المرتبط بالمكافآت.

وبالتالي، من خلال التعامل مع عدم اليقين كعنصر أساسي من عناصر إشارة المكافأة، يقدم هذا العمل نهجًا مثاليًا نحو أنظمة تعلم معزز أكثر موثوقية وتوافقًا.