تعد خوارزميات Bandit من الأدوات القوية لتقييم نماذج التعلم الآلي، بما في ذلك النماذج التوليدية للصور والنماذج اللغوية الضخمة (Large Language Models). تهدف هذه الخوارزميات إلى تحديد المرشحين الأفضل دون الحاجة إلى مقارنات شاملة، وذلك عبر الاعتماد على نموذج مكافآت يُوزع عادة عبر منصات مثل Hugging Face. مع أن التقييم عبر الإنترنت مكلف ويحتاج إلى تجارب متكررة، أصبح تقييم البيانات المسجلة خارج الإنترنت خياراً جذاباً.
ومع ذلك، فإن مقاومة هذه الخوارزميات للهجمات المضادة لا تزال تُعتبر مجالاً غير مُستكشف نسبياً، خاصة عندما يقوم المُهاجم باضطراب نموذج المكافآت قبل تدريب Bandit. هذه الدراسة الجديدة تملأ هذه الفجوة من خلال تحقيق، سواء من الناحية النظرية أو التجريبية، في ضعف تدريب Bandit خارج الإنترنت ضد التلاعبات المضادة في نموذج المكافآت.
نقدم نموذج تهديد جديد حيث يستغل المُهاجم البيانات خارج الإنترنت في إعدادات ذات أبعاد عالية للاختراق سلوك Bandit. بدأنا بإجراء دراسة على دوال المكافآت الخطية وانتقلنا إلى نماذج غير خطية مثل الشبكات العصبية (ReLU). تم تحليل الهجمات على اثنين من محركات التقييم الخاصة بـ Hugging Face المستخدمين لتقييم النموذج التوليدي: أحدهما يقيم الجودة الجمالية والآخر يقيم التنسيق التراكمي.
نتائجنا تظهر أن حتى الاضطرابات الصغيرة وغير الملحوظة في أوزان نموذج المكافآت يمكن أن تغير بشكل كبير سلوك Bandit. ومن الناحية النظرية، أثبتنا وجود تأثير استثنائي في الأبعاد العالية: كلما زادت أبعاد المدخلات، انخفض معيار الاضطراب اللازم لهجوم ناجح، مما يجعل التطبيقات الحديثة مثل تقييم الصور عرضة بشكل خاص. كما أكدت التجارب الواسعة أن الاضطرابات العشوائية البسيطة غير فعّالة، بينما تحقق الاضطرابات المستهدفة بعناية نسب نجاح اقتحام قريبة من الكمال.
هجمات مضادة فعالة على خوارزميات Bandit في الأبعاد العالية: كيف يمكن للهجمات الذكية تغيير سلوك النماذج!
تستعرض دراسة جديدة كيف يمكن للهجمات المضادة الهادفة على نماذج المكافآت أن تؤثر بشكل هائل على خوارزميات Bandit المستخدمة في تقييم نماذج الذكاء الاصطناعي. النتائج تكشف عن ضعف استثنائي في هذه الخوارزميات قد يهدد مصداقيتها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
