في عالم الذكاء الاصطناعي المتسارع، تأتي هجمات الحقن التلقائي للطلبات كتهديد حقيقي للمستخدمين ووكلاء الذكاء الاصطناعي الذين يتعاملون مع بيانات غير موثوقة. تتناول دراسة جديدة نُشرت في arXiv، أهمية هذا النوع من الهجمات وكيفية أدائها في بيئات وكيلة حقيقية.
تُظهر الدراسة تقييمًا شاملاً لهجمات الحقن التلقائي، حيث تم تعديل كل من الأساليب الشفافة (White-box) والأساليب غير الشفافة (Black-box) ضمن إطار عمل AgentDojo. تمت تجربة هذه الأساليب عبر 80 مجموعة مهام متعددة النماذج، حيث أظهرت النتائج أن أسلوب الحقن غير الشفاف تفوق بشكل ملحوظ على الأساليب المعتمدة على التدرجات. يُعزى هذا التفوق إلى عدم استقرار تحسين النموذج الشفاف تحت الميزانيات الحاسوبية المعقولة.
من المثير للاهتمام أن فعالية تلك الهجمات تعتمد أيضًا على نموذج المهاجم، حيث أظهرت النماذج الأكثر قدرة على التنفيذ نتائج أفضل، بينما كانت النماذج المعدلة للأمان قادرة على رفض توليد الطلبات المعاكسة. كذلك، فإن الهجمات الشاملة كانت فعالة في تحويل الاستهداف إلى مهام جديدة ومجالات غير متوقعة، لكن الهجمات المحسنة على نماذج صغيرة لم تنجح في الوصول إلى نماذج متقدمة مثل GPT-5.
تُظهر هذه النتائج أهمية النظر في الهجمات التلقائية للحقن كخطر موثوق يعتمد على النموذج، مما يعكس التحديات الكبيرة المتبقية أمام استغلال النموذج غير المتحيز. إذا كنت تُقدّر الأمان في عالم الذكاء الاصطناعي، لا تفوّت عليك اكتشاف المزيد حول هذه التطورات.
تقييم هجمات الحقن التلقائي للطلبات في بيئات الذكاء الاصطناعي: تحليل عميق ومثير
تسلط هذه الدراسة الضوء على خطر هجمات الحقن التلقائي للطلبات التي تستهدف نماذج الذكاء الاصطناعي الكبيرة، موضحةً كيفية تأثيرها على النماذج المختلفة. كما تكشف النتائج عن وجود فوارق كبيرة بين أساليب الهجوم المتبعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
