في عالم الذكاء الاصطناعي، تعتبر وكلاء اللغة الكبيرة (Large Language Model agents) جزءًا لا يتجزأ من التقدم التكنولوجي، حيث يعتمدون بشكل متزايد على أدوات خارجية لإنجاز مهام متعددة الخطوات بشكل مستقل. لكن ماذا يحدث عندما يتعلق الأمر بالتدريبات الدفاعية؟
تظهر الأبحاث الأخيرة من arXiv أن هذه التدريبات، والتي تهدف إلى حماية الوكلاء من هجمات مثل حقن الأوامر (prompt injection)، قد تكون لها نتائج عكسية. وتكشف الدراسة وجود "تناقض في توافق القدرات"، حيث تؤدي التدريبات الدفاعية إلى تراجع كفاءة الوكلاء، مما يجعلهم عاجزين أمام هجمات متطورة.
تمت تجربة النماذج الدفاعية مقابل القواعد غير الدفاعية عبر 97 مهمة تم تنفيذها بواسطة الوكلاء، مع استخدام 1000 مطلب معادي. وأظهرت النتائج وجود ثلاثة انحيازات منهجية فريدة ضمن الوكلاء الذين يتعاملون مع المهام متعددة الخطوات:
1. **انحياز عدم كفاءة الوكيل**: يظهر هذا الانحياز من خلال انهيار فوري في تنفيذ الأدوات، حيث ترفض النماذج أو تولد إجراءات غير صحيحة حتى قبل ملاحظة أي محتوى خارجي.
2. **انحياز تضخيم التسلسل**: يتسبب هذا في تفشي الفشل في الحلقات المتكررة، مما يدفع النماذج المدافعة إلى تجاوز المهام بنسبة 99% مقارنة بأداء القواعد غير المدافعة.
3. **انحياز المشغل**: تؤدي هذه الحالة إلى تدهور أمان صارخ، حيث تحقق النماذج المدافعة أداءً أسوأ من نماذج القاعدة.
تحليل الجذر يكشف أن هذه الانحيازات تندرج تحت التعلم المختصر، حيث تميل النماذج إلى الانغماس في أنماط الهجوم السطحية بدلاً من فهم التهديدات الأساسية. إن النتائج توضح الحاجة الملحة لاستراتيجيات جديدة يمكن أن تحافظ على كفاءة تنفيذ الأدوات في الظروف العدائية بدلاً من التركيز فقط على المعايير السطحية.
ضريبة الاستقلالية: كيف تؤثر التدريبات الدفاعية على قدرات وكلاء الذكاء الاصطناعي؟
تكشف دراسة جديدة عن صراع ثنائي بين الأمان وكفاءة وكلاء الذكاء الاصطناعي، حيث تؤدي التدريبات الدفاعية إلى إضعاف قدراتهم في إتمام المهام المعقدة. بينما يفشلون في التصدي للهجمات المعقدة، يتطلب الأمر استراتيجيات جديدة للحفاظ على الكفاءة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
