في عالم الذكاء الاصطناعي، تعتمد الأساليب التقليدية للتعلم المعزز (Reinforcement Learning) على افتراض أن العميل يتفاعل مع بيئة ثابتة لا تتأثر بسلوكه. لكن هذا الافتراض قد يُفشل في ظل بيئات غير قابلة للتحقيق، حيث يتوقع فيها لاعبون آخرون سلوك العميل، مثل البيئات التي تلعب دورًا حاسمًا في ضمان سلامة الذكاء الاصطناعي. هنا يأتي دور خمسة من التقنيات الجديدة في مجال التعلم المعزز التي تقدم نهجًا متميزًا تحت ما يعرف بـ Infra-Bayesianism.

Infra-Bayesianism كإطار نظري للقرارات يتناول العيوب الناتجة عن عدم التحديد في نماذج التعلم الكلاسيكية، حيث يميز بين عدم اليقين الاحتمالي العادي وعدم اليقين من النوع Knightian، الذي يستحيل فيه بناء أوليات معقولة. هذه التقنية تدرس الأفعال بناءً على أسوأ النتائج الممكنة، بدلاً من الاعتماد على التوقعات اللاحقة أو المتوسطات المرجحة.

نقدم في هذا المقال أول تطبيق عملي مُثبت لهيكل التعلم المعزز القائم على Infra-Bayesian لمشكلات اتخاذ القرار ذات النتائج المحدودة. فعلى عكس الأساليب التقليدية، يحتفظ وكيلنا بمجموعة من الفرضيات غير الدقيقة ويحدثها باستخدام التكييف Infra-Bayesian، ويختار الإجراءات من خلال تعظيم القيمة المتوقعة في أسوأ الحالات.

عند تطبيق هذه الفكرة على بيئات تتسم بعدم اليقين Knightian، أظهر وكيل Infra-Bayesian انخفاضًا في الندم في أسوأ الحالات مقارنةً بوكلاء التعلم المعزز التقليديين. علاوة على ذلك، تحدثنا أيضًا عن مشكلة Newcomb وأثبتنا أن وكيل Infra-Bayesian يختار الاستراتيجية المثلى، مما يجعله يتفوق على وكالات نظرية القرار التقليدية.

تُعد نتائجنا خطوة هامة نحو تطوير وكلاء تعلم معزز يظلوا متينين في ظل عدم تحديد النموذج وعدم اليقين المعتمد على السياسة. ما هي توقعاتكم حول هذا التطور في تكنولوجيا الذكاء الاصطناعي؟ شاركونا في التعليقات!