مع التطور السريع في مجال الذكاء الاصطناعي، تزداد الاعتماد على نماذج اللغة الكبيرة (Large Language Models) في العديد من التطبيقات. ومع ذلك، يواجه المستخدمون والمطورون مشكلات معقدة تتعلق بالسلوكيات غير المتوقعة التي قد تظهر أثناء التشغيل. هذه السلوكيات، مثل انتهاك التعليمات أو تشغيل "أبواب خلفية"، تمثل تحدياً كبيراً لا يمكن توقعه من خلال التحقق من البيانات النظيفة.

في مواجهة هذه المشكلات، تقدم الدراسة الجديدة مفهومًا مبتكرًا يُعرف باسم 'بصمات التحول الطبقي' (Layerwise Convergence Fingerprinting - LCF)، وهو عبارة عن نظام مراقبة فعال يعمل دون الحاجة إلى إعادة تدريب النماذج. تعتمد تقنية LCF على تحليل المسارات الخفية بين الطبقات كإشارة صحية، حيث تقوم بحساب المسافة باستخدام قياسات 'ماهاالانبيس' (Mahalanobis) وتطبيق عوامل تقليل على البيانات لتقليل الأخطاء.

تم تقييم LCF على أربعة معمارية مختلفة، وهي: Llama-3-8B، Qwen2.5-7B، Gemma-2-9B، وQwen2.5-14B، ونجحت في تقليل معدل نجاح الهجمات إلى أقل من 1% في بعض الحالات. كما تمكنت من الكشف عن 92-100% من عمليات اختراق "DAN"، واحتفظت بمعدل خطأ منخفض للغاية أثناء الاستدلال.

ما يميز LCF هو قدرتها على التعامل مع تهديدات متعددة دون الحاجة إلى تخصيص دقيق لكل تهديد على حدة، مما يجعلها طبقة أمان عامة فعالة يمكن استخدامها مع النماذج السحابية أو النماذج المدمجة.