يشهد مجال الذكاء الاصطناعي نقلة نوعية مع ظهور تكنولوجيا "التفكير بالصورة" (Think-with-image)، التي تمثل نموذج استدلال جديد لنماذج الرؤية-اللغة الضخمة (Large Vision-Language Models). ومع ذلك، تظل تداعياتها على الأمان غير مفهومة بشكل كامل. في هذه الدراسة الجديدة، قام الباحثون بدراسة ما الذي يجعل أنظمة التفكير بالصورة أكثر أمانًا في مواجهة محاولات "الهروب" (jailbreak) من القيود المفروضة على النماذج.

ركزت الدراسة على عدة تصميمات عملية مثل إنشاء ردود مباشرة، وتنفيذ جولات نصية بدون استخدام الصورة، والتلاعب بحالة الصورة، واستدعاء أدوات الصور الخارجية بشكل صريح. والنتيجة كانت مذهلة؛ حيث أظهرت التجارب أن استخدام تفاعل الأدوات البصرية يخفض من معدلات نجاح الهروب بنسبة تقارب 30% عبر النماذج التي تم تقييمها.

قد تبدو هذه النتائج مفاجئة في البداية، إذ أن معدل الهروب يظل منخفضًا حتى عندما تكون مخرجات أدوات الصورة غير آمنة أو معدلة يدويًا. لكن الأمر تبدّل عندما تم التحكم في الخرج النصي فقط، مما يدل على فعالية تفاعل أدوات الصورة في الحفاظ على الأمن.

تسعى الدراسة إلى تقديم إطار عمل جديد يسمى "متجه أمان أدوات الصورة"، الذي يصف استدعاء أدوات الصورة كحركة نحو مستوى أمان أعلى. تدعم التحليلات على مستوى التمثيل والتدخلات النشطة هذا العرض. يشير هذا الاتجاه الجديد في البحث إلى أن تفاعل أدوات الصورة يمثل نمط تصميم واعد لتحسين أمان النماذج، مما يعني الحاجة إلى تقييمات أمان محددة لكل سلسلة عملية.