في عالم الذكاء الاصطناعي، تعتبر [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) من [الأدوات](/tag/الأدوات) الثورية التي أحدثت تغييراً كبيراً في كيفية تعاملنا مع [البيانات](/tag/البيانات). لكن، هل تساءلت يوماً عن مدى [أمن](/tag/أمن) هذه [النماذج](/tag/النماذج)؟ [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) تسلط الضوء على [هجمات استنتاج](/tag/[هجمات](/tag/هجمات)-[استنتاج](/tag/استنتاج)) العضوية ([Membership Inference](/tag/membership-inference) Attacks) التي تستهدف [نماذج](/tag/نماذج) إزالة [الغموض](/tag/الغموض) (Masked Diffusion Language [Models](/tag/models) - [MDLMs](/tag/mdlms))، وتكشف عن ضعفها الكامن.
تستبدل [نماذج](/tag/نماذج) [MDLMs](/tag/mdlms) عملية [التوليد](/tag/التوليد) التلقائي بتقنية إزالة [الغموض](/tag/الغموض) التكرارية، ورغم فوائدها، إلا أن [الخصوصية](/tag/الخصوصية) الخاصة بها كانت غير مستكشفة بشكل كافٍ. تشير [الأبحاث](/tag/الأبحاث) إلى أن هذه [النماذج](/tag/النماذج) تُظهر عرضة كبيرة لهجمات [استنتاج](/tag/استنتاج) العضوية، مما يتطلب التوجه لمزيد من الحذر.
في هذا السياق، استخدم الباحثون مجموعة من التقنيات لاستخراج مجموعة [ميزات](/tag/ميزات) مكونة من 46 بعداً، مما يساعد في إعادة [بناء](/tag/بناء) الخسارة الناتجة عن النموذج عند أربعة نسب إزالة [غموض](/tag/غموض) مختلفة. وقد أظهرت نتائج تجربة [أداة](/tag/أداة) (XGBoost) و(Multi Layer Perceptron - [MLP](/tag/mlp)) فعالاً ملحوظاً، حيث حققت (XGBoost) متوسط AUC قدره 0.878 بينما بلغت ذروتها بواقع 0.930 على [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) (Pile CC). كما تجاوزت هذه الأداة [المعايير](/tag/المعايير) التقليدية المقاسة بمقدار 0.062 AUC.
ومن المثير للدهشة، أظهرت [الأبحاث](/tag/الأبحاث) أن مسار (ELBO) وحده كان المسئول عن معظم هذا الأداء، حيث شهدت النتائج انخفاضاً متوسطاً قدره 0.130 عند إزالته، بينما كانت [تأثيرات](/tag/تأثيرات) [ميزات](/tag/ميزات) [الانتباه](/tag/الانتباه) غير ملحوظة.
لم يتوقف [البحث](/tag/البحث) عند هذا الحد، بل تم [تصميم](/tag/تصميم) [هجوم](/tag/هجوم) [نموذج](/tag/نموذج) الظل (Shadow [Model](/tag/model) Transfer Attack) حيث تم [تدريب](/tag/تدريب) ثلاثة [نماذج](/tag/نماذج) [MDLMs](/tag/mdlms) بديلة على [بيانات](/tag/بيانات) من مجالات غير مترابطة، مما أعطى تصنيفات دون الحاجة للوصول للبيانات المستهدفة. وقد حقق هذا الهجوم متوسط AUC قدره 0.858، مما أظهر فعالية [نموذج](/tag/نموذج) الظل كنموذج [هجوم](/tag/هجوم) قريب للغاية من الطرق التقليدية.
هجمات استنتاج العضوية على نماذج اللغات الضخمة: تعرف على نقاط الضعف المفاجئة!
هجمات استنتاج العضوية (Membership Inference Attacks) تكشف عن ضعف نماذج اللغات الضخمة القائمة على تقنية إزالة الغموض، مما يهدد خصوصية البيانات. الدراسة الحديثة تبرز الأبعاد المعقدة لهذه الثغرات واستراتيجيات الهجوم المستخدمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
