تعتبر القدرة على تعلم السياسات التي تتوافق مع القيود من البيانات غير المتصلة أمراً أساسياً في اتخاذ القرارات الحرجة للسلامة. في السابق، اعتمدت الأساليب التقليدية على بيانات غير آمنة عديدة لتحديد الحدود الآمنة ومعاقبة الانتهاكات. إلا أن السيناريوهات ذات المخاطر العالية تجعل التجربة والخطأ محفوفة بالمخاطر، مما يؤدي إلى مجموعات بيانات تحتوي على عدد قليل جداً أو لا تحتوي على أي عينات غير آمنة.
لحل هذه المشكلة، قدمت مجموعة من الباحثين نموذج PROCO، وهو إطار عمل قائم على النماذج لتعلم التعزيز الآمن من البيانات غير المتصلة، مناسب تماماً لمجموعات البيانات التي تفتقر إلى الانتهاكات. يستفيد PROCO من نماذج اللغات الضخمة (LLMs) لدمج المعرفة اللغوية الطبيعية في السياسات، مما يمكّنه من تقدير المخاطر رغم عدم توفر بيانات واضحة عن الانتهاكات.
من خلال تعلم نموذج الديناميات وسيرورة بناء دالة تكلفة محافظة، يستطيع PROCO إجراء محاكاة ذاتية لرسم سيناريوهات متنوعة غير آمنة. يعزز هذا الأسلوب من إمكانية تعلم سياسات موثوقة، حيث يُظهر PROCO أداءً أفضل بكثير فيما يتعلق بتقليل انتهاكات القيود مقارنة بالأساليب الأصلية وبعض المعايير الأخرى مثل الاستنساخ السلوكي.
بفضل هذا الابتكار، يُمكن للذكاء الاصطناعي الآن العمل في بيئات تتطلب أقصى درجات الأمان، مما يفتح آفاقاً جديدة لتطبيقاته في العديد من الصناعات الحساسة.
ثورة في تعلم السياسات الآمنة: نموذج جديد لمواجهة تحديات البيانات النادرة
يقدم البحث الجديد PROCO نهجاً مبتكراً لتعلم السياسات الآمنة باستخدام نماذج التعلم الآلي، مما يقلل من المخاطر حتى مع نقص البيانات. يعد هذا التطور خطوة كبيرة نحو تطبيقات الذكاء الاصطناعي في القضايا الحرجة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
