في عصر الذكاء الاصطناعي، باتت نماذج اللغات الكبيرة المتعددة الأنماط (MLLMs) تلعب دوراً محورياً في تقديم خدمات متطورة. لكن، مع هذه الإمكانيات تأتي مخاطر كبيرة تتعلق بأمان البيانات، خصوصاً عند استخدام بيانات ملوثة تؤدي إلى اختراقات قد تؤثر على أداء الأنظمة.

برنامج Fine-Tuning-as-a-Service (FTaaS) يسهل تخصيص هذه النماذج، ولكنه يعرضها لمخاطر خلفية سلبية. وبشكل عام، ترتكز الوسائل الحالية للدفاع إما على إشارات مُشرفة أو تفشل في التعويض عن الأنواع المتنوعة من الاختراقات.

في هذا الإطار، تقدم الدراسة التي تم نشرها في arXiv تقنية جديدة تُعرف باسم Tri-Component Attention Profiling (TCAP)، وهي إطار دفاعي غير مُشرف يهدف إلى تصفية العينات الملوثة. تعتمد TCAP على مفهوم مثير، وهو تفريق تخصيص الانتباه المرتبط بالاختراق. إذ تبين أن العينات الملوثة تؤدي إلى اضطراب في توزيع الانتباه المتوازن عبر ثلاثة مكونات وظيفية: تعليمات النظام، المدخلات البصرية، والاستفسارات النصية من المستخدم.

تتوزع TCAP التخطيط البديل لخريطة الاهتمام عبر هذه المكونات الثلاثة، وتستخدم نموذج Gaussian Mixture Model (GMM) لتحديد رؤوس الانتباه الاستجابية للاختراق، ومن ثم تعزل العينات الملوثة من خلال تجميع التصويت القائم على EM. تم إثبات فعالية TCAP من خلال تجارب موسعة عبر هياكل MLLM المختلفة وطرق الهجوم المتنوعة، مما يجعلها نظامًا موثوقًا للدفاع ضد الاختراقات في نماذج الذكاء الاصطناعي.

في النهاية، بينما يستمر الابتكار في عالم الذكاء الاصطناعي، يصبح من الضروري أن نضمن أمان بياناتنا. كيف تجد تقنية TCAP الجديدة؟ شاركونا آراءكم في التعليقات!