في عصر الذكاء الاصطناعي الفعال، تزداد أهمية النماذج متعددة الوسائط (Multi-Modal Models) والتي تدمج بين الصور والنصوص لتنفيذ مهام معقدة. ومع تقدم هذه التقنيات، تظهر تحديات جديدة تتطلب اهتمامًا خاصًا، خصوصًا فيما يتعلق بالخصوصية. مؤخراً، تم تسليط الضوء على مخاطر تسريب البيانات الحساسة من خلال هجمات تُعرف بهجمات استدلال العضوية (Membership Inference Attacks - MIA) على نماذج الرؤية-اللغة (Vision-Language Models - VLMs).

تلك الهجمات لم تكن تقتصر فقط على أنظمة الذكاء الاصطناعي الأحادية (Unimodal AI Systems)، بل أظهرت الدراسات أن النماذج متعددة الوسائط أيضًا معرضة للخطر. ولقد أثبت الباحثون أن الشبكات العصبية المستوحاة من البيولوجيا قد تحسن من مقاومة النماذج الأحادية للهجمات العدائية، لكن لم يتم التعرف بشكل كافٍ على ما إذا كانت النماذج المستوحاة من الأعصاب قادرة على حماية الخصوصية بما يكفي في وجه هذه الهجمات.

في هذه الدراسة، تم تقديم إطار عمل مُلهم من علم الأعصاب لتحليل مقاومة نماذج VLMs ضد هجمات استدلال الخصوصية القائم على النصوص والصور. تمت التجارب على ثلاثة نماذج VLMs: BLIP وPaliGemma 2 وViT-GPT2، عبر ثلاثة مجموعات بيانات مرجعية: COCO وCC3M وNoCaps.

نتائج التجارب تشير إلى أن نجاح هجمات MIA انخفض بنسبة 24% في نموذج BLIP عند استخدام فريق NEURO، مما يدل على فعالية النماذج المستوحاة من الأعصاب. كما حافظ النموذج على مستوى أداء مماثل مقارنة بالمعايير القياسية. كل هذه النتائج تدعم الفهم المتزايد لمخاطر الخصوصية في النماذج متعددة الوسائط.

ماهى آرائكم حول قوة النماذج المستوحاة من الأعصاب في حماية الخصوصية؟ هل تعتقدون أنها تمثل مستقبلًا آمنًا لتقنيات الذكاء الاصطناعي؟