في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتطور، يُعتبر التلاعب بنماذج [اللغة](/tag/اللغة) الكبيرة (Large Language [Models](/tag/models)) خطراً متزايداً. وقد أظهرت [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) كيف يمكن تفعيل التقنيات القائمة على تحسينية ([Optimization](/tag/optimization)-based) للكشف عن المحفزات العدائية (Adversarial Prompts) من خلال تطبيق مفهوم [تغييرات](/tag/تغييرات) [الانتروبيا](/tag/الانتروبيا) (Entropy Changes).

تعتبر هذه [التقنية](/tag/التقنية) بمثابة ثورة في كيفية [التعرف](/tag/التعرف) على المحفزات العدائية، حيث يتم تناول المشكلة من خلال [رؤية](/tag/رؤية) جديدة وهي تحديد نقاط التغيير (Change-point detection) في تدفق [الانتروبيا](/tag/الانتروبيا) على مستوى الرموز. باستخدام [نموذج](/tag/نموذج) النظام الأساسي، يمكن تقدير قاعدة قوية لتحليل التغيرات في [الانتروبيا](/tag/الانتروبيا) المخصصة لكل رمز.

تم [تطوير](/tag/تطوير) [تقنية](/tag/تقنية) [كشف](/tag/كشف) جديدة تدعى CPD Online (CPD)، وهي [نموذج](/tag/نموذج) غير مرتبط بنوع معين، مما يعني أنها قادرة على العمل بكفاءة مع مختلف [النماذج](/tag/النماذج) دون الحاجة للتدريب المسبق. وقد أثبتت [التجارب](/tag/التجارب) أن CPD يمكنه [تحسين](/tag/تحسين) [دقة](/tag/دقة) الكشف بشكل ملحوظ، حيث حقق معدل F1 قدره 0.82 واختبار AUROC بمعدل 0.88 مع [نموذج](/tag/نموذج) LLaMA-2-7B.

تُظهر النتائج أن CPD تركز على 79.6% من المحفزات العدائية بداخل المحفز العدائي نفسه، بينما يقتصر تركيز طرق الكشف التقليدية على 17-46%. وعلاوة على ذلك، عند دمجه مع نظام الوقاية LLaMA Guard، يمكن لـ CPD تقليل الحالات المشبوهة بنسبة 17-22% في البيئات ذات [الحركة](/tag/الحركة) العالية.

هذه [الابتكارات](/tag/الابتكارات) تمثل خطوة هامة [نحو](/tag/نحو) تعزيز [الأمان](/tag/الأمان) في [أنظمة](/tag/أنظمة) الذكاء الاصطناعي، مما يمهد الطريق لأبحاث مستقبلية أكثر تقدماً في هذا المجال.