تعد الهجمات الخلفية على نماذج اللغات (Language Models) واحدة من أكثر التهديدات خطورة في مجال أمان الذكاء الاصطناعي. تتجلى هذه الهجمات في تصرف النماذج بشكل طبيعي مع معظم المدخلات، لكنها تظهر سلوكيات ضارة عند تنشيطها بواسطة أنماط محددة. تعدّ دراسة الكشف عن هذه الثغرات من خلال الفهم الميكانيكي (Mechanistic Interpretability) تحديًا مفتوحًا لذا يسعى الباحثون إلى حلول فعّالة.

في هذا السياق، قمنا بدراسة معماريتين مختلفتين من مشفرات ذاتية السبك: Crosscoders وDifferential SAE (Diff-SAE) وذلك لتحديد الميزات المرتبطة بالهجمات الخلفية في النماذج المُعدلة بدقة. استخدمنا هجوم ثغرة SQL مُسيطر عليه يعتمد على سياق يعتمد على السنة، حيث يشير "2024" إلى كود ضعيف و"2023" إلى كود آمن، مما يُمكّننا من تقييم كفاءة الطريقتين عبر معايير Fine-Tuning المختلفة.

أظهرت النتائج تفوق نموذج Diff-SAE بشكل واضح على Crosscoders في كشف الثغرات الخلفية، حيث حقق Diff-SAE درجة عزل الهجمات الخلفية (Backdoor Isolation Score - BIS) تصل إلى 0.40 مع دقة كاملة (1.0) ومعدل إيجابيات كاذبة يصل إلى الصفر عبر معظم الظروف التجريبية. وعلى العكس، فشلت Crosscoders تقريبًا تمامًا، حيث سجلت BIS أقل من 0.02 في معظم الحالات.

توضح الدراسات أن الفجوة في الأداء تتجلى عبر عدة طبقات من المحولات (Transformers) وتظهر أن Fine-Tuning الكامل ينتج إشارات خلفية أنظف، مما يشير إلى أن الهجمات الخلفية قد تتجلى كتحولات تنشيط الاتجاهية بدلاً من تنشيط الميزات النادرة، مما يجعل التمثيلات المعتمدة على الفوارق أكثر فعالية من حيث الكشف.

تحتوي هذه النتائج على تداعيات هامة فيما يتعلق بمراقبة أمان الذكاء الاصطناعي وتطوير أدوات الفهم للكشف عن التلاعب بالنماذج، مما يفتح الآفاق لمزيد من الأبحاث في هذا الاتجاه.