في عالم الذكاء الاصطناعي، تعتبر نماذج اللغات الضخمة (Large Language Models) من الأدوات الثورية التي أحدثت تغييراً كبيراً في كيفية تعاملنا مع البيانات. لكن، هل تساءلت يوماً عن مدى أمن هذه النماذج؟ دراسة جديدة تسلط الضوء على هجمات استنتاج العضوية (Membership Inference Attacks) التي تستهدف نماذج إزالة الغموض (Masked Diffusion Language Models - MDLMs)، وتكشف عن ضعفها الكامن.
تستبدل نماذج MDLMs عملية التوليد التلقائي بتقنية إزالة الغموض التكرارية، ورغم فوائدها، إلا أن الخصوصية الخاصة بها كانت غير مستكشفة بشكل كافٍ. تشير الأبحاث إلى أن هذه النماذج تُظهر عرضة كبيرة لهجمات استنتاج العضوية، مما يتطلب التوجه لمزيد من الحذر.
في هذا السياق، استخدم الباحثون مجموعة من التقنيات لاستخراج مجموعة ميزات مكونة من 46 بعداً، مما يساعد في إعادة بناء الخسارة الناتجة عن النموذج عند أربعة نسب إزالة غموض مختلفة. وقد أظهرت نتائج تجربة أداة (XGBoost) و(Multi Layer Perceptron - MLP) فعالاً ملحوظاً، حيث حققت (XGBoost) متوسط AUC قدره 0.878 بينما بلغت ذروتها بواقع 0.930 على مجموعة بيانات (Pile CC). كما تجاوزت هذه الأداة المعايير التقليدية المقاسة بمقدار 0.062 AUC.
ومن المثير للدهشة، أظهرت الأبحاث أن مسار (ELBO) وحده كان المسئول عن معظم هذا الأداء، حيث شهدت النتائج انخفاضاً متوسطاً قدره 0.130 عند إزالته، بينما كانت تأثيرات ميزات الانتباه غير ملحوظة.
لم يتوقف البحث عند هذا الحد، بل تم تصميم هجوم نموذج الظل (Shadow Model Transfer Attack) حيث تم تدريب ثلاثة نماذج MDLMs بديلة على بيانات من مجالات غير مترابطة، مما أعطى تصنيفات دون الحاجة للوصول للبيانات المستهدفة. وقد حقق هذا الهجوم متوسط AUC قدره 0.858، مما أظهر فعالية نموذج الظل كنموذج هجوم قريب للغاية من الطرق التقليدية.
هجمات استنتاج العضوية على نماذج اللغات الضخمة: تعرف على نقاط الضعف المفاجئة!
هجمات استنتاج العضوية (Membership Inference Attacks) تكشف عن ضعف نماذج اللغات الضخمة القائمة على تقنية إزالة الغموض، مما يهدد خصوصية البيانات. الدراسة الحديثة تبرز الأبعاد المعقدة لهذه الثغرات واستراتيجيات الهجوم المستخدمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
