في عالم الذكاء الاصطناعي المتطور، يُعتبر التلاعب بنماذج اللغة الكبيرة (Large Language Models) خطراً متزايداً. وقد أظهرت دراسة جديدة كيف يمكن تفعيل التقنيات القائمة على تحسينية (Optimization-based) للكشف عن المحفزات العدائية (Adversarial Prompts) من خلال تطبيق مفهوم تغييرات الانتروبيا (Entropy Changes).

تعتبر هذه التقنية بمثابة ثورة في كيفية التعرف على المحفزات العدائية، حيث يتم تناول المشكلة من خلال رؤية جديدة وهي تحديد نقاط التغيير (Change-point detection) في تدفق الانتروبيا على مستوى الرموز. باستخدام نموذج النظام الأساسي، يمكن تقدير قاعدة قوية لتحليل التغيرات في الانتروبيا المخصصة لكل رمز.

تم تطوير تقنية كشف جديدة تدعى CPD Online (CPD)، وهي نموذج غير مرتبط بنوع معين، مما يعني أنها قادرة على العمل بكفاءة مع مختلف النماذج دون الحاجة للتدريب المسبق. وقد أثبتت التجارب أن CPD يمكنه تحسين دقة الكشف بشكل ملحوظ، حيث حقق معدل F1 قدره 0.82 واختبار AUROC بمعدل 0.88 مع نموذج LLaMA-2-7B.

تُظهر النتائج أن CPD تركز على 79.6% من المحفزات العدائية بداخل المحفز العدائي نفسه، بينما يقتصر تركيز طرق الكشف التقليدية على 17-46%. وعلاوة على ذلك، عند دمجه مع نظام الوقاية LLaMA Guard، يمكن لـ CPD تقليل الحالات المشبوهة بنسبة 17-22% في البيئات ذات الحركة العالية.

هذه الابتكارات تمثل خطوة هامة نحو تعزيز الأمان في أنظمة الذكاء الاصطناعي، مما يمهد الطريق لأبحاث مستقبلية أكثر تقدماً في هذا المجال.