في عالم الذكاء الاصطناعي، تلعب المهارات المعتمدة (Skill-based agents) دوراً حيوياً في تعزيز فعالية الوكلاء من خلال توجيهات معينة، سكربتات قابلة للتنفيذ، وموارد إضافية. لكن هذا التصميم القابل لإعادة الاستخدام يكشف عن ثغرات جديدة، حيث يمكن تحميل مهارة ضارة أو مخترقة كإرشادات موثوقة، مما يوجه استخدام الوكلاء للأدوات خلال عمليات التنفيذ.
حتى وقت قريب، كانت هجمات حقن المهارات تعتمد بشكل كبير على العمليات اليدوية، وكانت هشة، حيث يتم رفض التعليمات الضارة عند عدم توافقها مع سير العمل الأصلي. ولكن الآن، تم تقديم SkillJect، الإطار الأول من نوعه الذي يتيح توليد مهارات مسمومة بشكل آلي.
كيف يعمل SkillJect؟ يقوم بتفكيك الهجوم إلى قناتين منسقين. في القناة الأولى، يتم إخفاء المحتوى الضار في سكربت مساعد إضافي. بينما في القناة الثانية، يتم إعادة كتابة ملف SKILL.md باستخدام استراتيجية تحفيزية تضع المحتوى المُدخل في البداية، مما يجعل السكربت الإضافي يبدو كخطوة تمهيدية إلزامية.
إنه يتضمن أيضًا عملية مغلقة متعددة الوكلاء لتحسين أداء الهجوم. يقوم وكيل الهجوم بإنشاء المهارات المسننة، بينما ينفذ وكيل الضحية المهام مع هذه المهارات، ويقوم وكيل التقييم بفحص آثار التنفيذ لتحديد ما إذا تم تنفيذ المحتوى المخفي. هذه الحلقة المغلقة تسمح لوكيل الهجوم بتشخيص الفشل وإعادة كتابة SKILL.md، مع الحفاظ على ثبات المحتوى الضار.
أثبتت التجارب عبر المنصات ونظم LLM الخلفية وفئات الهجوم أن SkillJect يتفوق بشكل ملحوظ على أساليب الحقن اليدوية السابقة، مما يكشف عن المهارات المسمومة كوسيلة هجوم مستمرة في النظم البيئية المعتمدة على المهارات القابلة لإعادة الاستخدام.
ما رأيكم في هذه التطورات الثورية؟ شاركونا أفكاركم وتجاربكم في التعليقات!
SkillJect: كيفية تعزيز أمان_agents المعتمدة على المهارات بفعالية من خلال آلية حقن مبتكرة!
يعتبر SkillJect الابتكار الأول من نوعه في مكافحة هجمات حقن المهارات المسمومة، حيث يتيح تصميمًا مدروسًا يعزز أمان الأنظمة المعتمدة على الذكاء الاصطناعي. استعد لتجاوز التحديات القديمة بحلول جديدة وتقنيات متطورة!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
