في عالم الذكاء الاصطناعي، تقدمت نماذج الرؤية واللغة (VLMs) بشكل سريع وأصبحت تُستخدم في تطبيقات واقعية متنوعة، خاصة مع ظهور أنظمة تعتمد على الوكلاء. رغم ذلك، لا يزال أمان هذه النماذج يُعد موضوعًا مهمًا لم يُعطَ الاهتمام الكافي. إذ تظل حتى أحدث أنواع VLMs، سواء كانت مملوكة أو مفتوحة المصدر، عُرضة للهجمات العدوانية، مما يترك التطبيقات التابعة لها معرضة لمخاطر كبيرة.
في دراسة جديدة، تم تقديم إطار عمل مبتكر للكشف عن الهجمات العدوانية، يعتمد على الأكواد الذاتية النادرة (Sparse Autoencoders) ويُطلق عليه SAEgis. يعتمد هذا الحل على إدراج وحدة SAE في نموذج VLM مُدرّب مسبقًا والتدريب على أهداف إعادة البناء القياسية. والنتيجة؟ تكتسب الميزات الخفية المستخلصة بتقنية SAE القدرة على التقاط الإشارات ذات الصلة بالهجمات بفعالية، مما يُمكّن من تصنيف ما إذا كانت الصورة المدخلة قد تعرضت لتعديل عدواني، حتى بالنسبة للعينات التي لم تُرَ من قبل.
أظهرت التجارب الواسعة أن تقنية SAEgis حققت نتائج قوية عبر إعدادات مختلفة. وهذا يشمل تحسينات كبيرة في التعميم بين المجالات مقارنةً بأساليب أخرى موجودة. بالإضافة إلى ذلك، يُحسّن دمج الإشارات من طبقات متعددة من القوة والموثوقية.
تُعتبر هذه المبادرة هي الأولى من نوعها كاستكشاف لاستخدام SAE كآلية سهلة التوصيل للكشف عن الهجمات العدوانية في VLMs. كما أن الطريقة لا تتطلب تدريبًا عدوانيًا إضافيًا، وتقدم نهجًا عمليًا يحسن من أمان أنظمة VLMs في العالم الواقعي. في مجملها، تعكس هذه الدراسة تقدمًا مثيرًا في مجال الذكاء الاصطناعي.
هل تعتقد أن هذه التقنية ستحدث فارقًا في أمان نماذج الرؤية واللغة؟ لا تتردد في مشاركة آرائك في التعليقات!
كيف تحمي نماذج الرؤية واللغة من الهجمات العدوانية باستخدام تقنيات جديدة مبتكرة!
اكتشاف طريقة مبتكرة تستخدم الأكواد الذاتية النادرة (Sparse Autoencoders) لتعزيز أمان نماذج الرؤية واللغة (VLMs) ضد الهجمات العدوانية. هذه التقنية توفر استجابة فعالة وسهلة للتطبيق في العالم الحقيقي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
