في عصر يتزايد فيه الاعتماد على وكالات الذكاء الاصطناعي ذات النماذج اللغوية الضخمة (Large Language Models) لأداء المهام المعقدة بشكل أوتوماتيكي، تبقى هذه الأنظمة عرضة لتهديدات جديدة تتعلق بالأمان. من أبرز هذه التهديدات هي هجمات التوجيه غير المباشر، حيث يقوم الخصوم بإدخال تعليمات خبيثة ضمن المحتوى الذي عادة ما تقوم الوكالات بمعالجته واعتباره موثوقًا.
ولمعالجة هذه الثغرات، يتم تقديم extsc{كلو غارد} (ClawGuard)، وهو إطار أمان مبتكر يعمل على فرض مجموعة من القواعد المعتمدة على تأكيد المستخدم عند كل نقطة استدعاء للأدوات. يهدف هذا النظام إلى تحويل الدفاعات المعتمدة على التنسيق غير الموثوق إلى آلية حاسمة يمكن تدقيقها، مما يمكّنها من اعتراض المكالمات الخبيثة قبل أن تُحدث أي تأثيرات في العالم الحقيقي.
هذه الآلية ليست مجرد أداة قابلة للتطوير، وإنما تتمكن من استنتاج قيود الوصول المتعلقة بالمهمة المحددة بناءً على الأهداف التي يحددها المستخدم قبل استدعاء أي أداة خارجية. وقد أثبتت التجارب عبر خمسة نماذج لغوية متطورة على ست معايير إصابة، أنها تستطيع منع جميع مسارات الإدخال الثلاثة دون الحاجة لتعديل النموذج أو تغيير البنية التحتية.
تظهر النتائج أيضًا أن extsc{كلو غارد} يوفر حماية قوية ضد هجمات التوجيه غير المباشر دون التأثير على فعالية الوكائل أو إضافة عبء رمزي كبير. هذه النتائج تؤكد أن التطبيق الحاسم لحدود المكالمات يمكن أن يكون آلية دفاع فعالة للأنظمة الذكية الآمنة.
يمكنكم الوصول إلى كود المشروع عبر: github.com/Claw-Guard/ClawGuard/. ما رأيكم في هذا التطور المستقبلي في أمان الذكاء الاصطناعي؟ شاركونا في التعليقات.
كلو غارد: إطار أمان مبتكر لحماية وكالات الذكاء الاصطناعي من هجمات التوجيه غير المباشر
تقدم كلو غارد إطار أمان ثوري يحمي نماذج اللغات الضخمة (LLM) من هجمات التوجيه غير المباشر، مما يقلل من المخاطر أثناء تنفيذ المهام المعقدة. يساهم هذا الابتكار في ضمان سلامة أنظمة الذكاء الاصطناعي في العالم الحقيقي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
