أمان الوكلاء: إعادة التفكير في التوافق مع الأفعال في عصر الذكاء الاصطناعي

Q: ما هو موضوع مقال "أمان الوكلاء: إعادة التفكير في التوافق مع الأفعال في عصر الذكاء الاصطناعي"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "أمان الوكلاء: إعادة التفكير في التوافق مع الأفعال في عصر الذكاء الاصطناعي" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم الذكاء الاصطناعي، أصبحت نماذج اللغات الضخمة (Large Language Models) تتصرف كعملاء عالميين؛ حيث تقوم بالدعوة إلى أدوات، تحويل الأموال، حذف السجلات، وإرسال الرسائل نيابة عن المستخدمين. ومع تزايد دورها، أصبح ضرورة الحفاظ على أمان هذه النماذج أمرًا حيويًا. تم أخذ استراتيجيات الأمان التقليدية من عصر chatbots، حيث يتم تدريب النموذج على رفض المدخلات غير الآمنة، وإدخالها إلى هذا المجال كوسيلة لتحقيق ذلك. إلا أن هذا النهج قد يؤدي إلى فقدان القدرات، وهو ما تم تسميته "ضريبة التوافق".

هنا تأتي النقطة الجوهرية: يتطلب أمان الوكيل فهمًا مختلفًا تمامًا. الضرر الناتج عن الوكيل لا يكمن في أي مخرجات، بل في العلاقة بين السلطة التي تمارسها الأفعال وسلطة المستخدم الممنوحة.

تظهر الأدلة من تدريبات الدفاع أن النماذج المدربة على رفض المدخلات غير الآمنة تتعلم أنماط السطح بدلاً من النية. وعندما يتم تطبيق نفس التدريب، تنهار الوكلاء ذوو الخطوات المتعددة قبل أن يظهر أي تهديد، مما يجعلهم عرضة للاستغلال. حتى النماذج المتقدمة غير المدافعة تتجاوز السلطة الممنوحة في الاستخدام العادي.

لذلك، نختم بأنه لا يمكن تثبيت أمان الأفعال في وزن النموذج؛ بل يجب التعبير عنه من خلال "أقل امتياز"، والذي يجب أن يتم تطبيقه خارجيًا عند حدود الفعل، ويتم تقييمه كـ "توافق الأفعال" بدلاً من نتيجة الرفض.

أمان الوكلاء: إعادة التفكير في التوافق مع الأفعال في عصر الذكاء الاصطناعي

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة ذكاء اصطناعي: المساعد الجديد من أدوبي يمكنه إنجاز المهام عبر جميع تطبيقاتك الإبداعية!

ثورة جديدة في عالم الحوسبة: استثمار ضخم ينذر بإطلاق عملاق الحوسبة التالي

هل تتجه أنظار المستثمرين نحو Anthropic بعد موجة الدولار؟