تشهد نماذج اللغات الضخمة (Large Language Models) اهتمامًا متزايدًا كمكونات إشرافية في الأنظمة الحرجة للسلامة. ومع ذلك، لا يزال تأثير الضغط العدائي المستمر عليها غير واضح بشكل كافٍ. في هذا السياق، تم تقديم NRT-Bench كمعيار لاختبار نماذج اللغات الضخمة (LLM) في بيئة محاكاة تمثل غرفة تحكم في محطة طاقة نووية.

يتكون فريق المشغلين من خمسة أدوار، تدعم كل منها نموذج LLM قابل للتكوين، ويقوم هذا الفريق بتشغيل محطة تخضع لستة وظائف أمان حرجة. في المقابل، يقوم المعتدون بإرسال رسائل عبر أربع قنوات في جلسات متعددة الأدوار مع ملاحظات عن كل خطوة. يتم قياس النجاح بناءً على فقدان أي من وظائف الأمان الحرجة (Critical Safety Functions) بدلاً من النص الذي تحكمه نماذج LLM.

يكشف البحث أن الهجمات التكيفية متعددة الأدوار تؤدي بلا شك إلى تجاوز الفريق حد الأمان. أظهرت النتائج أن ما بين 8.7% و12.1% من جلسات الهجوم تنتهي بفقدان وظيفة أمان حرجة. ورغم أن النماذج الأربعة بدت متشابهة تقريبًا في معدل الفشل، إلا أن الفشل في كل منها يكاد أن يكون غير متداخل. من بين 149 جلسة، لم يتمكن أي من المعتدين من هزيمة جميع النماذج الأربعة، بينما تمكن ثلثهم من هزيمة نموذج واحد على الأقل.

علاوة على ذلك، تعتمد فعالية الدفاعات المضافة بشكل كبير على النموذج: الحواجز أو وكيل الأمان الذي يقلل من نجاح الهجوم لنموذج قد يؤدي إلى رفعها لنموذج آخر. تم إصدار بيانات المحاكاة ومجموعة البيانات المستخدمة في الهجمات وأدوات إعادة التشغيل لدعم التقييم المتكرر لسلامة نماذج اللغات الضخمة (LLM). هذا البحث يُعد خطوة مهمة نحو تحسين الأمان والموثوقية في أنظمة الذكاء الاصطناعي المستخدمة في البيئات الحرجة.