في ضوء التحديات المتزايدة التي تواجه نماذج اللغة الكبيرة (Large Language Models)، يعتبر تقييم القابلية للمهاجمين موضوعًا مثيرًا للجدل والنقاش. تقليديًا، يتم قياس فعالية الهجمات بناءً على نسبة نجاح الهجوم (Attack Success Rate - ASR) ضمن ميزانيات ثابتة من الاستعلامات، مما يجعل جميع الهجمات تبدو بالتساوي في التكاليف. لكن، ما لا يأخذه هذا المنهج في الاعتبار هو أن التكلفة الحوسبية لاستراتيجيات الهجوم المختلفة يمكن أن تتفاوت بشكل كبير، مما يؤثر على الجهود المطلوبة لاختراق النموذج.

ابتكر الباحثون إطار عمل تقييم قائم على ضغط الحوسبة، يُقاس بالعمليات الحسابية العائمة التراكمية (Floating Point Operations - FLOPs)، ليكون بمثابة مقياس للجهود المبذولة في الهجمات. وقد تم تطوير منحنيات المخاطر المرتبطة بالحوسبة (Risk-Compute Curves) لربط ميزانيات الحوسبة بمخاطر الهجوم، مما يساعد في تقديم تقدير أكثر دقة للتكاليف التي يتعرض لها المهاجم.

أظهرت النتائج المستخلصة من عشرة نماذج تغطي ثلاثة عائلات وأربعة مراحل مختلفة من تدريب وتوافق نماذج اللغة، أن:
1. التدريب المتوافق لا يؤثر بشكل موحد على قدرة النموذج على مقاومة الهجمات.
2. زيادة حجم النموذج تقلل من فعالية الهجمات المعتمدة على التدرج، لكن تأثيرها يظل محدودًا على الهجمات الأقل تكلفة.
3. الهجمات المدربة على نموذج بديل يمكن أن تنتقل إلى نموذج مستهدف مختلف، مما يتيح تقليل تكاليف المهاجمين.
4. تتفاوت تكاليف الحوسبة بمعدل يصل إلى حوالي 5 مرات بين فئات الأذى في النموذج الواحد.
5. زيادة الأمان من خلال التعلم المعزز (Reinforcement Learning - RL) تزيد من التكاليف الإجمالية لكن تظل بعض الفئات متاحة بشكل بالغ.

مع إطلاق هذا الإطار، يسعى الباحثون إلى تمكين تقييم المخاطر المدروسة وفقًا لتكاليف الحوسبة، مما يسهم في التحسين المستمر لأداء الأمان في نماذج اللغة الكبيرة.