في عالم الذكاء الاصطناعي، حيث يتواصل النموذج مع البيانات بشكل يومي، يبدو أن هناك جوانب مظلمة تحيط بالملحقات مثل LoRA (Low-Rank Adaptation) التي اكتسبت شهرة واسعة في عملية ضبط النماذج اللغوية.

دراسة حديثة نشرت على منصة arXiv تكشف عن إمكانيات التلاعب بهذه الملحقات عبر تقنية تسمى "تسميم بيانات التدريب" (Training Data Poisoning)، مما يسمح بإدخال أبواب خلفية (Backdoors) دون التأثير على الأداء الأساسي للنموذج. وفي دراسة لحالة نموذج تصنيف يقوم بتحليل المدخلات، وُجد أن كمية صغيرة من الأمثلة المسمومة قادرة على نقل الأثر المدمر بينما تحافظ على دقة النموذج.

وقد أظهرت النتائج أن الهجمات لا تركز على أنماط هيكلية معينة، بل تعمل على مستوى ميزات الرموز، مما يعني أن دفع النموذج على التعلم من عينة واحدة قد يُفعل الأبواب الخلفية على جميع العينات مع الاحتفاظ بالصورة العامة للأداء.

لعل الخبر الأكثر إثارة هو كيف يمكن الكشف عن هذه الهجمات. تم تطوير نظام الكشف السلوكي الذي يفصل بين الملحقات المسمومة والنظيفة بدقة عالية، مما يحقق معدل دقة يزيد عن 95% في بعض التجارب. الأمر الذي يتيح لنا أداة قوية للتحقق من سلامة الأنظمة قبل استخدامها في بيئات حساسة.

إجمالاً، تشير هذه الدراسة إلى تصاعد التهديدات التي تتعلق بالقدرة على استغلال تقنيات الذكاء الاصطناعي بشكل غير شفاف، وتسلط الضوء على أهمية تطوير آليات الكشف والتعقب المستمرة. وهذا يطرح تساؤلاً مهمًا: كيف يمكننا حماية أنظمتنا من هذه التهديدات الجديدة؟