في عالم الذكاء الاصطناعي، أصبحت نماذج اللغات الضخمة (Large Language Models) تتصرف كعملاء عالميين؛ حيث تقوم بالدعوة إلى أدوات، تحويل الأموال، حذف السجلات، وإرسال الرسائل نيابة عن المستخدمين. ومع تزايد دورها، أصبح ضرورة الحفاظ على أمان هذه النماذج أمرًا حيويًا. تم أخذ استراتيجيات الأمان التقليدية من عصر chatbots، حيث يتم تدريب النموذج على رفض المدخلات غير الآمنة، وإدخالها إلى هذا المجال كوسيلة لتحقيق ذلك. إلا أن هذا النهج قد يؤدي إلى فقدان القدرات، وهو ما تم تسميته "ضريبة التوافق".
هنا تأتي النقطة الجوهرية: يتطلب أمان الوكيل فهمًا مختلفًا تمامًا. الضرر الناتج عن الوكيل لا يكمن في أي مخرجات، بل في العلاقة بين السلطة التي تمارسها الأفعال وسلطة المستخدم الممنوحة.
تظهر الأدلة من تدريبات الدفاع أن النماذج المدربة على رفض المدخلات غير الآمنة تتعلم أنماط السطح بدلاً من النية. وعندما يتم تطبيق نفس التدريب، تنهار الوكلاء ذوو الخطوات المتعددة قبل أن يظهر أي تهديد، مما يجعلهم عرضة للاستغلال. حتى النماذج المتقدمة غير المدافعة تتجاوز السلطة الممنوحة في الاستخدام العادي.
لذلك، نختم بأنه لا يمكن تثبيت أمان الأفعال في وزن النموذج؛ بل يجب التعبير عنه من خلال "أقل امتياز"، والذي يجب أن يتم تطبيقه خارجيًا عند حدود الفعل، ويتم تقييمه كـ "توافق الأفعال" بدلاً من نتيجة الرفض.
أمان الوكلاء: إعادة التفكير في التوافق مع الأفعال في عصر الذكاء الاصطناعي
تتناول هذه المقالة الحاجة الملحة لتعديل استراتيجيات الأمان في نموذج الوكلاء المستندين إلى الذكاء الاصطناعي، حيث تبين أن رفض المدخلات غير الآمنة ليس كافيًا. بدلًا من ذلك، يجب أن نعيد النظر في كيفية التحكم في الأفعال لضمان الأمان.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
