تعتبر نماذج تحويل الرؤية (Vision Transformers - ViTs) من الابتكارات الحديثة التي حققت نجاحاً ملحوظاً في مجالات متعددة من الرؤية الحاسوبية. ومع ذلك، لا تزال هذه النماذج عرضة للهجمات المعادية، تماماً كما هو الحال مع الشبكات العصبية الالتفافية (Convolutional Neural Networks - CNNs). لمواجهة هذه التحديات، تم استخدام تدريب هجمات معادية كاستراتيجية دفاعية شائعة، لكن الأبعاد النظرية لهذه المقاومة في نماذج ViTs كانت تفتقر للاستكشاف الكافي.
في هذه الدراسة، قدم الباحثون أول تحليل نظري لتدريب الهجمات المعادية في نماذج ViTs تحت هياكل مبسطة. وقد أظهرت النتائج أنه عند التدريب بنسبة معينة من الإشارة إلى الضوضاء، والعناية بميزانية اختلال متوسطة، يمكن لنموذج ViT أن يحقق خسارة تدريب قوية تقريباً وصفرية بالإضافة إلى خطأ تعميم موثوق ضمن سياقات معينة.
الأمر المثير هو أنه حتى في ظل وجود الإفراط، وهو ما يُعرف بالإفراط الحميد (Benign Overfitting)، يمكن لنماذج ViTs أن تحقق تعميماً واسعاً، وهي ظاهرة كانت تُلاحَظ سابقاً فقط في الشبكات العصبية الالتفافية مع تدريب الهجمات المعادية. وتضيف التجارب التي أُجريت على بيانات صناعية وحقيقية مزيداً من الدعم لنتائج هذه الدراسة النظرية.
يجعل هذا الاكتشاف من تدريب الهجمات المعادية أسلوباً يعد بمستقبل مشرق لتطوير نماذج أكثر قوة في مواجهة الهجمات المعادية، مما يفتح المجال لأبحاث مستقبلية تثري هذا المجال.
ظاهرة الإفراط الحميد: تعزيز قوة نماذج تحويل الرؤية ضد الهجمات المعادية
نجحت دراسات جديدة في تقديم تحليل نظري لتدريب نماذج تحويل الرؤية (ViTs) في مواجهتها للهجمات المعادية. وهذا يكشف عن مفهوم 'الإفراط الحميد' الذي يعزز من قدرة هذه النماذج على التعميم حتى في حالات الإفراط.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
