في عالم الذكاء الاصطناعي، أصبح من الواضح أن النماذج المتعددة اللغات والرؤية (Multimodal Models) تواجه تهديدات متزايدة. نحن اليوم بصدد دراسة جديدة تتناول الهجمات الضارة الشاملة على نماذج الرؤية-اللغة (Vision-Language Models)، حيث أشارت التقارير إلى معدلات نجاح تتراوح بين 60-80%. لكن، هل هذه الأرقام تتناول الجانب الصحيح من المشكلة؟
تطرح الدراسة سؤالاً مهماً: هل يعتبر الرقم المتعلق بمعدل نجاح الهجمات مؤشراً حقيقياً على قدرتها على التأثير على المخرجات؟ يشير الباحثون إلى أن هذا الرقم يجمع بين حدثين منفصلين: التأثير على مخرج النموذج (Influence) وما إذا كان المفهوم المستهدف قد تم تصنيعه بالفعل (Precise Injection).
للتعمق في الأمر، قام الباحثون بدمج تقنيتين موجودتين: الهجوم الضار الشامل (Universal Adversarial Attack) وتقنية AnyAttack تحت ميزانية معينة. وتم استخدام نظام تقييم مزدوج الأبعاد: درجة قياس انزياح Ratcliff-Obershelp كمعيار للتأثير، وتصنيفات متعددة للمخرجات المستهدفة.
المفاجآت جاءت عندما أظهرت نتائج الاختبارات أن 66.4% من البيانات المقدمة تأثرت برمجياً، لكن فقط 0.756% منها وصلت إلى أي مستوى من مستويات الإيصال. وبدورهم، أظهرت النماذج تضاربًا كبيرًا في النتائج، حيث نجح نموذج BLIP-2 في إظهار عدم وجود أي انحراف قابل للاكتشاف ضمن الحدود المسموحة.
تم إصدار مجموعة بيانات كاملة تضم 21 صورة عالمية و147 صورة ضارة و6615 زوج ردود، مما يتيح للباحثين إعادة صياغة الأرقام بدون الحاجة إلى مفتاح API. مما لا شك فيه، يثير هذا البحث تساؤلات حول الأمان والثقة في نماذج الذكاء الاصطناعي، هل نحن أمام ثغرات خطيرة أم أن الحلول موجودة بالفعل؟ ما رأيكم في هذا التطور؟ شاركونا في التعليقات!
ثورة في الذكاء الاصطناعي: اكتشاف ثغرات خطيرة لنماذج الرؤية-اللغة!
تقدم دراسة جديدة رؤى مثيرة حول الهجمات الضارة على نماذج الرؤية-اللغة. النتائج تظهر أن نموذج BLIP-2 لا يعاني من أي انحراف، بينما تُظهر الهجمات الأخرى معدلات نجاح مثيرة!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
