مع التطور السريع لنماذج الذكاء الاصطناعي، أصبح لوكلاء نماذج اللغات الضخمة (LLM) قدرات قوية لاستخدام الأدوات. ومع ذلك، فإن هذه القوة تجلب معها مخاطر أمنية كبيرة، حيث يمكن أن يستغل المتلاعبون هذه الوكلاء لتنفيذ أدوات تروج لمحتوى ضار. على الرغم من وجود آليات دفاعية حالية، إلا أنها تواجه غالبًا مشكلة الرفض المفرط، حيث تؤدي زيادة الصرامة في الأمان إلى تقليل فعالية الوكيل في المهام غير الضارة.
للتغلب على هذا التحدي، تم تطوير إطار عمل جديد يُدعى SafeHarbor، والذي يُعزز أمان وكالات LLM عبر إنشاء حدود قرار دقيقة. بدلاً من الإرشادات الثابتة، يقوم SafeHarbor باستخراج قواعد الدفاع المعتمدة على السياق من خلال توليد معزز.
لقد تم تصميم نظام ذاكرة هرمية محلي لإدخال القواعد الديناميكية، مما يوفر حلاً فعالًا وخالٍ من الحاجة للتدريب. علاوة على ذلك، تم تقديم آلية ذاتية تطورية تعتمد على المعلومات لتحسين هيكل الذاكرة بشكل مستمر من خلال تقسيم ودمج العقد الديناميكي.
أظهرت التجارب الواسعة أن SafeHarbor يحقق أداءً رائدًا في المهام غير الواضحة وغير الضارة بالإضافة إلى التصدي للهجمات الضارة بفاعلية، حيث حقق نسبة منفعة غير ضارة تصل إلى 63.6% مع الحفاظ على معدل رفض قوي يتجاوز 93% ضد الطلبات الضارة. يتوفر كود المصدر للعامة على [رابط GitHub](https://github.com/ljj-cyber/SafeHarbor).
ما رأيكم في هذه التقنية الحديثة؟ كيف يمكن أن تُحسن من أمان وكالات الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.
SafeHarbor: الحارس الذكي لحماية وكالات الذكاء الاصطناعي من المخاطر!
تقدم SafeHarbor حلاً مبتكرًا لتعزيز أمان وكالات نماذج اللغات الضخمة بتقنية الذاكرة الهرمية. تعرف على كيفية حماية هذه الأنظمة من الاستخدامات الضارة وتحقيق أداء رائع في نفس الوقت.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
