ثورة في تعلم السياسات الآمنة: نموذج جديد لمواجهة تحديات البيانات النادرة

تعتبر القدرة على تعلم السياسات التي تتوافق مع القيود من البيانات غير المتصلة أمراً أساسياً في اتخاذ القرارات الحرجة للسلامة. في السابق، اعتمدت الأساليب التقليدية على بيانات غير آمنة عديدة لتحديد الحدود الآمنة ومعاقبة الانتهاكات. إلا أن السيناريوهات ذات المخاطر العالية تجعل التجربة والخطأ محفوفة بالمخاطر، مما يؤدي إلى مجموعات بيانات تحتوي على عدد قليل جداً أو لا تحتوي على أي عينات غير آمنة.

لحل هذه المشكلة، قدمت مجموعة من الباحثين نموذج PROCO، وهو إطار عمل قائم على النماذج لتعلم التعزيز الآمن من البيانات غير المتصلة، مناسب تماماً لمجموعات البيانات التي تفتقر إلى الانتهاكات. يستفيد PROCO من نماذج اللغات الضخمة (LLMs) لدمج المعرفة اللغوية الطبيعية في السياسات، مما يمكّنه من تقدير المخاطر رغم عدم توفر بيانات واضحة عن الانتهاكات.

من خلال تعلم نموذج الديناميات وسيرورة بناء دالة تكلفة محافظة، يستطيع PROCO إجراء محاكاة ذاتية لرسم سيناريوهات متنوعة غير آمنة. يعزز هذا الأسلوب من إمكانية تعلم سياسات موثوقة، حيث يُظهر PROCO أداءً أفضل بكثير فيما يتعلق بتقليل انتهاكات القيود مقارنة بالأساليب الأصلية وبعض المعايير الأخرى مثل الاستنساخ السلوكي.

بفضل هذا الابتكار، يُمكن للذكاء الاصطناعي الآن العمل في بيئات تتطلب أقصى درجات الأمان، مما يفتح آفاقاً جديدة لتطبيقاته في العديد من الصناعات الحساسة.

ثورة في تعلم السياسات الآمنة: نموذج جديد لمواجهة تحديات البيانات النادرة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

دفاعات إلكترونية مبتكرة: نموذج CyberSecQwen-4B وجعل الأمن الإلكتروني محليًا!

ثورة جديدة في نماذج اللغة الصغيرة: تحسين توليد Bash باعتماد تقنيات القواعد

إطلاق نموذج EMO: ثورة في التدريب المختلط للخبراء من أجل التحول المعياري!