تُعتبر سلامة وكلاء تعلم التعزيز (Reinforcement Learning) عاملاً حاسماً في نشر هذه التكنولوجيا في العالم الحقيقي. فبينما تعتمد السياسات المستفادة من تقنيات التعلم العميق على تنبؤات معقدة، فإنها قد تظهر عرضة للتغييرات المفاجئة التي تتسبب في سلوك غير معروف أو غير آمن. ولذلك، فقد تم تطوير نهج مبتكر للتحقق من السياسات من خلال بناء شهادات حاجز احتمالية (Probabilistic Barrier Certificates) عن طريق أخذ عينات من مسارات السياسات وفقًا لقيود السلامة، مما يساعد على فصل السلوكيات الآمنة المعروفة عن تلك المجهولة.

تعتبر عملية الحصول على حدود ضيقة للاحتمالات الخاصة بانتهاك هذه القيود أمراً صعباً، خصوصاً إذا كانت السياسات تتعرض لعدم اليقين في الانتقال أو التغييرات التي قد تضع الوكيل في حالات غير مكتشفة بشكل كاف. للتغلب على هذا التحدي، يتم استخدام مُشفر تلقائي تبايني (Variational Autoencoder) لتقريب توزيع الفضاء الملاحظ للحالات، وبناء شهادات حاجز بالدقة المطلوبة باستخدام الخصائص الكامنة للحالات بهدف تحسين المناطق المعروفة بسلوك آمن وثقة عالية.

نطرح هذا المفهوم كمسألة تحسين مزدوجة، حيث يُقدم حاجز الحد الأدنى تقديرًا أكثر تحفظًا للمنطقة الآمنة مقارنةً بحاجز الحد الأقصى. من خلال أخذ عينات من الحالات التي تقع ضمن الفرق بين الاثنين خلال التدريب، يمكن تعزيز حدود الأمان وتحقيق ضمانات احتمال أكثر دقة. نوضح في دراستنا الضمانات الموضوعة ونظهر مدى قوة حدودنا تجريبياً. إن هذا البحث يُمثل خطوة هامة نحو تحسين استخدام تعلم التعزيز في بيئات قد تتعرض للمخاطر.

ما رأيكم في هذه الأساليب الجديدة لضمان الأمان في الذكاء الاصطناعي؟ شاركونا في التعليقات.