في مجال الذكاء الاصطناعي، تبقى فكرة تقييم متانة نماذج اللغات الضخمة (Large Language Models) مواجهة لتحديات تقلل من فعالية الأداء الدفاعي. ومن أبرز المشاكل التي نتطرق لها هو تصميم الهجمات بشكل منظم لدراسة قوة هذه النماذج. في الماضي، تم تحقيق تحسينات ملحوظة في تصنيف الصور من خلال اختبارات موحدة، لكن لم يتم اعتماد أي معايير موحدة فيما يتعلق بتقييم الهجمات على نماذج اللغات الضخمة.

مؤخراً، تم تقديم مفهوم جديد يعرف بـ تحسين ضرر غير مباشر (Indirect Harm Optimization) الذي يُعتبر خطوة مبتكرة في هذا الاتجاه. تعتمد هذه الطريقة على استخدام نموذج لغوي مدرب على أساس تفضيلات تكرارية، مما يجعلها تتطلب فقط وصولاً إلى أنظمة النموذج المستهدف دون الحاجة لتعديلات محددة على أنواع الدفاع.

تتميز استراتيجية IHO بإمكانية تطبيقها بشكل فعال ضد سلوكيات فردية وكذلك قدرتها على الانتقال بسلاسة إلى نماذج أخرى جديدة وغير مألوفة. وهذا يتيح للمحققين أن يكونوا أكثر استعداداً لمواجهة الأساليب المختلفة للدفاع.

أثبتت النتائج الأولية أن أداء IHO يتفوق على الأساليب الحالية، حتى أمام دفاعات معقدة مثل النماذج التي تعتمد على Circuit Breaker مع كاشفات مساعدة. هذا يبرز أهمية وجود معايير موحدة لتحليل الهجمات، مما يساهم في تعزيز سلامة وموثوقية نماذج اللغات الضخمة.

لأول مرة، هناك إمكانية لتحسين التقييمات ومعرفة المخاطر المرتبطة بالهجمات، مما يعزز من فعالية الردود الأمنية ويعطي نظرة أكثر دقة للمستقبل. يمكن العثور على التعليمات البرمجية والنماذج الخاصة بـ IHO على منصات GitHub وHugging Face.