في عالم الذكاء الاصطناعي سريع التطور، يقول الباحثون إن تقييم معدل نجاح الهجمات (Attack Success Rate أو ASR) لم يعد كافيًا. فعلى الرغم من أنه يدل على ما إذا كانت محاولة كسر نموذج ما قد نجحت أم لا، فإن هذا النوع من التحليل لا يخبرنا كيف تجري الأمور خلف الكواليس. بناءً على ذلك، فقد تمكن فريق من الباحثين من تقديم مفهوم مبتكر يُعرف ب'الرؤية الزمنية للقرارات' (Temporal Logit Observability أو TLO)، الذي يتيح إمكانية تتبع مسارات الفشل في نماذج اللغات الضخمة.

تقوم TLO بتتبع الهوامش بين الامتثال والرفض خلال عملية تحليل البيانات، مما يسمح بعرض كل حالة نموذج وهجوم على مستوى ثنائي الأبعاد. ومن الملفت للنظر أن الهجمات التي تحقق معدلات نجاح متقاربة قد تتباين بشكل كبير في مساراتها. هذا يعني أن نفس النموذج يمكن أن يفشل بطرق زمنية مختلفة، وهو ما يمكن أن يُعد ثورةً في كيفية تقويم أمان هذه النماذج.

عبر 4 نماذج متوافقة ونماذج هجوم متعددة، وُجد أن الهجمات التي تظهر معدل نجاح متطابق قد تنجح لأسباب مختلفة تماماً. تتيح هذه الرؤية الجديدة اكتشاف أماكن الفشل بشكل دقيق، وبالتالي تزويد المطورين بمعلومات حيوية أكثر من مجرد معرفة الاختراقات الناجحة. كما أظهر الباحثون أن استخدام قاعدة بسيطة مستندة إلى TLO يمكن أن يقلل من الهجمات الناجحة بأكثر من 50% دون إنشاء إنذارات كاذبة على الاستفسارات العادية.

بالتالي، فإن الأمان في الذكاء الاصطناعي يتطلب تقويمًا متكاملًا يتضمن الكشف عن وقت وكيفية حدوث الأخطاء، وليس مجرد الإبلاغ عن وجودها. تتيح TLO، كأداة تقويم حديثة، إمكانية كشف هذه الجوانب الجديدة من البيانات.