في عالم تكنولوجيا الذكاء الاصطناعي، تعتبر نماذج اللغة الكبيرة (LLMs) من أبرز الابتكارات الحديثة التي أثبتت فعاليتها في توليد النصوص وتفاعلها مع البشرية. ولكن، على الرغم من جهود السلامة وضبط المخاطر، لا تزال هذه النماذج عرضة للهجمات التي تهدف إلى إنتاج محتويات ضارة. فإلى أي مدى يمكننا فهم آليات هذه النماذج الداخلية لكشف نقاط ضعفها؟

أحدث دراسة تناولت هذا الموضوع، تسلط الضوء على إمكانية "اختراق" نماذج مثل Gemma-2-2B، واستكشاف العلاقات بين المكونات الداخلية لهذه النماذج وطريقة تفاعلها مع الهجمات. الدراسة لا تكتفي بإظهار الثغرات، بل تتعمق في فهم الميكانيكيات التي تجعل هذه النماذج معرضة للاختراق.

اعتمد الباحثون على طريقة مبتكرة تتكون من ثلاثة مراحل باستخدام مجموعة بيانات BeaverTails، حيث بدأت المرحلة الأولى باستخراج الرموز المرتبطة بالمفاهيم من الاستجابات العدائية باستخدام تشابه الفضاءات. تلت ذلك مرحلة تطبيق استراتيجيات تجميع الميزات، مثل التجمع، الربط الهرمي، والتحفيز القائم على الرموز الفردية، لتحديد المجموعات الفرعية للميزات في جميع طبقات النموذج الـ26.

في المرحلة الثالثة، تم توجيه النموذج من خلال تعزيز الميزات العليا من كل مجموعة فرعية مُحددة، وتم قياس التغيير في بارامترات الخطر باستخدام بروتوكول تقييم موحد لنماذج اللغة.

أظهرت النتائج أن الطبقات من 16 إلى 25 كانت أكثر عرضة للتوجيه، مما يعني أن المجموعات الفرعية للميزات في الطبقات المتوسطة والمتأخرة هي المسؤولة بشكل أكبر عن المخرجات غير الآمنة. يفتح هذا البحث مجالات جديدة لفهم كيفية تحسين أمان هذه النماذج من خلال تدخلات مستهدفة على مستوى الميزات بدلاً من التركيز على تعزيزات الجمل فقط.

ما رأيكم في هذا التطور؟ شاركونا آراءكم وتجاربكم حول هذا الموضوع في التعليقات.