في عالم الذكاء الاصطناعي، تلعب نماذج اللغات الضخمة (Large Language Models) دورًا حيويًا في تصنيف الأمان. لكن الأبحاث الأخيرة تكشف عن حقيقة مذهلة: عمليات التخصيص التي تُجرى على هذه النماذج قد تنتج ثغرات أمنية غير مرئية أثناء التقييم التقليدي.

توضح الدراسة أن نماذج الذكاء الاصطناعي المتخصصة في تصنيف الأمان غالبًا ما يتم تقييمها باستخدام أمثلة مخزنة تتبع نفس توزيع بيانات التدريب. المشكلة تكمن في أن هذا التقييم يمكن أن يغفل عن الثغرات التي تسفر عن نفسها نتيجة لعملية التخصيص، حيث تتعلم النماذج دلالات على مستوى الرموز (token-level indicator semantics) تحتفظ بدقة معيارية بينما تفشل تحت تحولات سلوكية (behavior-preserving transformations) مختلفة.

استنادًا إلى دراسة تم تنفيذها على نموذج Foundation-Sec-8B-Instruct، الذي يعتمد على الطراز الأساسي Llama-3.1-8B-Instruct، أظهرت النتائج أن التصميم الوراثي (inherited structure) في نموذج Llama يظل موجودًا وينتقل عبر الاستخدامات المختلفة، مما يُفضي إلى نقاط ضعف غير مكتشفة. يتمثل أحد التحذيرات في أن التخصيص يمكن أن يؤدي إلى تركيز هذه البنية وراثيا، ولكن في نفس الوقت قد يسهل surfaces حساسة ضد الهجمات.

بالإضافة إلى ذلك، تم تطوير أسلوب لمراقبة ما قبل النشر عن طريق استخدام تجربة خطية عند حدود التصنيف بالإضافة إلى اختبار علامات مؤشرات الرموز (indicator-token sign test)، والذي يساهم في تحديد العائلات المنفذة بناءً على تغيير الأدوار بعد عمليات التخصيص.

تدعو هذه النتائج إلى الحذر في التعامل مع التخصيصات الصغيرة حيثُ يبدو أنها أكثر أمانًا. إن الفهم الدقيق للبنية التحويلية الكاملة للمهمة ومراقبة الانحراف الدلالي يعد أحد التحديات الكبرى لتحقيق الأمان في أنظمة الذكاء الاصطناعي. فالاستثمار في طرق أمنية مدعومة بالذكاء الاصطناعي يتطلب المعرفة الكاملة بالقضايا المحيطة بالتحولات السلوكية والمخاطر الجديدة التي قد تظهر من خلال التخصيص.