مع التطور السريع لنماذج الذكاء الاصطناعي، أصبح لوكلاء نماذج اللغات الضخمة (LLM) قدرات قوية لاستخدام الأدوات. ومع ذلك، فإن هذه القوة تجلب معها مخاطر أمنية كبيرة، حيث يمكن أن يستغل المتلاعبون هذه الوكلاء لتنفيذ أدوات تروج لمحتوى ضار. على الرغم من وجود آليات دفاعية حالية، إلا أنها تواجه غالبًا مشكلة الرفض المفرط، حيث تؤدي زيادة الصرامة في الأمان إلى تقليل فعالية الوكيل في المهام غير الضارة.

للتغلب على هذا التحدي، تم تطوير إطار عمل جديد يُدعى SafeHarbor، والذي يُعزز أمان وكالات LLM عبر إنشاء حدود قرار دقيقة. بدلاً من الإرشادات الثابتة، يقوم SafeHarbor باستخراج قواعد الدفاع المعتمدة على السياق من خلال توليد معزز.

لقد تم تصميم نظام ذاكرة هرمية محلي لإدخال القواعد الديناميكية، مما يوفر حلاً فعالًا وخالٍ من الحاجة للتدريب. علاوة على ذلك، تم تقديم آلية ذاتية تطورية تعتمد على المعلومات لتحسين هيكل الذاكرة بشكل مستمر من خلال تقسيم ودمج العقد الديناميكي.

أظهرت التجارب الواسعة أن SafeHarbor يحقق أداءً رائدًا في المهام غير الواضحة وغير الضارة بالإضافة إلى التصدي للهجمات الضارة بفاعلية، حيث حقق نسبة منفعة غير ضارة تصل إلى 63.6% مع الحفاظ على معدل رفض قوي يتجاوز 93% ضد الطلبات الضارة. يتوفر كود المصدر للعامة على [رابط GitHub](https://github.com/ljj-cyber/SafeHarbor).

ما رأيكم في هذه التقنية الحديثة؟ كيف يمكن أن تُحسن من أمان وكالات الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.