في عالم الذكاء الاصطناعي، تزداد التحديات التي تواجه نماذج اللغة مع تطور أساليب الحماية. دراسات جديدة نشرت مؤخرًا على منصة arXiv تكشف عن ملامح مثيرة حول كيفية تأثير الاختراقات على أداء هذه النماذج. في الوقت الذي كانت فيه هذه الاختراقات تُعتبر تهديدًا كبيرًا، يبدو أن النماذج الأحدث تتغلب عليها بشكل أفضل مما كنا نتوقع.

تُظهر الأبحاث أن التعقيد المتزايد للاختراقات يُحدث تأثيرًا يُسمى "ضريبة الاختراق" (jailbreak tax)، التي تؤثر على قدرة النموذج على الأداء. ومع ذلك، قد تبين أن هذه الضريبة تتناقص مع زيادة قدرات النموذج. على سبيل المثال، عندما تم اختبار 28 اختراقًا على خمسة مقاييس أداء عبر نماذج Claude، لوحظ أن نموذج Haiku 4.5 فقد متوسط 33.1% من أدائه بعد الاختراق، بينما نموذج Opus 4.6 فقد فقط 7.7% في أقصى جهد تفكيري.

تمتاز النماذج الأكثر تقدمًا بقدرة على الصمود أمام أساليب الاختراق، مما يجعلها أكثر كفاءة في المهام الثقيلة المعتمدة على التفكير مقارنة بتلك التي تعتمد على استرجاع المعرفة. ومن المثير للاهتمام، أن اختراق Boundary Point قد أثبت أنه الأقوى ضد التصنيفات المُعتمدة، حيث حقق الهروب شبه الكامل مع تدهور ضئيل.

بناءً على هذه النتائج، يوصي العلماء بعدم الاعتماد على تدهور القدرات كوسيلة لإثبات سلامة نماذج الحدود. إن فهم كيفية استجابة هذه النماذج للاختراقات أمرا حيوياً لتطوير استراتيجيات أمان فعالة.